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译 者 序 


四 年 前 ， 我 在 读 人 研究 生 时 曾经 参考 龙 书 编写 过 一 个 商 单 的 编译 项 前 
端 。 经 过 一 个 星期 的 实践 后 ， 我 意识 到 ， 从 头 实现 一 个 编译 器 前 端的 
难度 远 远 超出 了 一 般 开 发 者 的 能 力 。 编 写 编译 器 前 端 所 需要 的 理论 基 
础 、 技 术 功底 和 精力 都 远 非 普通 软件 可 比 。 


幸运 的 是 ，ANTLR 的 出 现 使 这 个 过 程 变 得 易 如 反 税 。ANTLR 能 够 根据 
用 户 定 义 的 语法 文件 目 动 生成 词法 分 析 郁 和 语法 分 析 大 ， 并 将 输入 文 
本 处 理 为 (可视化 的 ) 语法 分 析 树 。 这 一 切 都 是 自动 进行 的 ， 所 需 的 
仅仅 是 一 份 描述 该 语言 的 语法 文件 。 


一 年 前 ， 我 在 为 淘 至 的 一 个 内 部 数据 分 析 系 统 设计 DSL 时 ， 第 一 次 接 
触 到 了 ANTLR。 使 用 ANTLR 之 后 ， 我 在 一 天 之 内 融 完 成 了 整个 编译 大 
前 只 的 开发 工作 ， 从 而 能 够 迅速 开始 处 理 真 正 的 业务 逻辑 。 从 那 时 
起 ， 我 融 极 它 强 大 的 功能 所 深 深 吸引 。 催 而 言 之 ，ANTLR 能 够 解决 别 
的 工具 无 法 解决 的 问题 。 


软件 改变 了 世界 。 数 十 年 来 ， 信 息 化 的 浪潮 在 全 球 颠 覆 着 一 个 又 一 个 
的 行业 。 然 而 ， 整 个 世界 的 信息 化 程度 还 远 未 达到 合理 的 高 度 ， 还 有 
大 量 传统 行业 的 生产 力 可 以 被 信息 化 所 解放 。 在 这 种 看 似 矛盾 的 情形 
背后 存在 着 一 条 鸿沟 : 大 量 从 事 传统 行业 的 人 员 拥 有 在 本 行业 中 无 与 
伦比 的 业务 知识 和 经 验 ， 却 苦于 跟 不 上 现代 软件 发 展 的 脚步 。 解 决 这 
个 问题 的 根本 方法 就 是 DSL (Domain Specific Language) ， 让 传统 行业 
的 人 员 能 够 用 严谨 的 方式 与 计算 机 对 话 。 其 实 ， 本 质 上 任何 编程 语言 
都 是 一 种 DSL， 殊 途 同 归 。 


而 实现 DSL 的 主要 困难 束 在 编译 器 前 痢 。 编 译 右 被 称 为 软件 工程 旦 冠 
上 的 明珠 。 一 直 以 来 ， 对 于 普通 的 开发 者 而 言 ， 编 译 器 的 设计 与 实现 
都 如 同 诗 中 摘 述 的 那样 : “日 云 在 青天 ， 可 望 不 可 即 。” 


ANTLR 改 变 了 这 一 切 。ANTLR 目 动 生成 的 编译 器 前 问 高 效 、 准 确 ， 能 
够 将 开发 着 从 葵 洒 的 编译 理论 中 解放 出 来 ,集中 精力 处 理 目 己 的 业务 
逻辑 。ANTLR 43 引 入 的 目 动 语法 分 析 树 创建 与 通 历 机 制 ， 极 大 地 提高 
了 语言 识别 程序 的 开发 效率 。 


时 至 今日 ，ANTLR 仍 然 是 Java 世 界 中 实现 编译 器 的 不 二 之 选 ， 同 时 ， 
它 对 其 他 编程 语言 也 提供 了 不 同 程度 的 支持 。 在 开始 学 习 ANTLR 时 ， 
我 发 现 国 内 有 关 ANTLR 的 资料 较为 贫乏 ， 这 催生 了 我 翻译 本 书 的 念 
头 。 我 期 望 通过 本 书 的 翻译 ， 让 更 多 的 开发 者 能 够 更 加 自如 地 解决 职 
业 生 涯 中 碰 到 的 难题 。 


本 书 没 有 宛 长 的 理论 ， 而 是 从 一 些 具 体 的 需求 出 发 ， 由 浅 入 深 地 介绍 
了 语言 的 背景 知识 、ANTLR 语 法 的 设计 方法 以 及 基于 ANTLR 4 实现 语 
言 识 别 程 序 的 详细 步骤 。 它 尤其 适用 于 对 语言 识别 程序 的 开发 感 兴趣 
的 开发 者 。 不 过 ， 假 如 你 现在 没有 这 样 的 需求 ， 我 仍然 建议 你 阅读 本 
书 ， 因 为 它 能 够 开拓 你 的 眼界 ， 让 你 深入 实现 层面 加 深 对 编程 语言 的 
理解 。 


感谢 原作 者 Terence Parr 教 授 向 这 个 世界 页 献 了 如 此 优秀 的 软件 。 您 编 
写 的 ANTLR 极 大 地 提高 了 开发 效率 ， 这 实际 上 等 于 延长 了 广大 开发 者 
的 生命 。 


感谢 孙 岚 和 石 寒 舟 两 位 前 辈 对 本 书 审 校 付出 的 心血 ， 您 二 位 的 宝贵 建 
议 令 我 受益 菲 浅 。 


感谢 华章 公司 的 和 静 编 辑 对 本 书 的 翻译 提供 的 支持 与 帮助 。 


感谢 我 的 妻子 张 洁 珊 女士 ， 你 的 理解 和 陪伴 保障 了 翻译 过 程 如 期 完 
es 


感谢 每 一 位 读者 ， 你 的 潜心 研习 与 融会 贯通 将 会 令 本 书 更 有 价值 。 


截止 本 书 译 完 的 2016 年 12 月 ，ANTLR 已 经 演进 到 了 4.6。 在 这 个 过 程 
中 ， 一 些 Breaking Change 出 现 了 ， 本 书 中 的 部 分 示例 代码 已 经 不 再 有 
效 。 因 此 ， 我 尽 自己 所 能 ， 结 合 勘误 表 ， 使 用 最 新 版 的 ANTLR 对 它们 


进行 了 逐个 验证 。 对 于 失效 的 代码 ， 我 通过 译注 的 方式 予以 修正 。 由 
于 译 者 水 平 有 限 ， 书 中 出 现 错 误 与 不 有 之 处 在 所 难免 ， 居 请 读者 批评 
i 


张 博 


2017 年 1 月 


本 书 由 “ePUBw.COM” 整 理 ，ePUBw.COM 提供 
最 新 最 全 的 优质 电子 书 下 载 ! ! ! 


= 一 


BI 


ll 


ANTLR 是 一 款 强大 的 语法 分 析 器 生成 工具 ， 可 用 于 读 取 、 处 理 、 执 行 
和 翻译 结构 化 的 文本 或 二 进 制 文件 。 它 被 广泛 应 用 于 学 术 领 域 和 工业 
生产 实践 ， 是 众多 语言 、 工 具 和 框架 的 基石 。Twitter 搜 索 使 用 ANTLR 
进行 语法 分 析 ， 每 天 处 理 超过 20 亿 次 查询 ，Hadoop 生 态 系统 中 的 
Hive、Pig、 数 据 仓 库 和 分 析 系 统 所 使 用 的 语言 都 用 到 了 ANTLR; Lex 
Machina 将 ANTLR 用 于 分 析 法 律 文 本 ; Oracle 公 司 在 SQL 开 发 者 IDE 和 
迁移 工具 中 使 用 了 ANTLR; NetBeans 公 司 的 IDE 使 用 ANTLR 来 解析 
C++; Hibernate 对 象 -天 系 映射 框架 (ORM) 使 用 ANTLR 来 处 理 HQL 语 


llls 


除了 这 些 易 易 大 名 的 项 目 之 外 ， 还 可 以 利用 ANTLR 构 建 各 种 各 样 的 实 
用 工具 ， 如 配置 文件 读 取 器 、 遗 留 代码 转换 器 、 维 基文 本 泻 染 器 ， 以 
及 JSON 解 析 器 。 我 编写 了 一 些 工 具 ， 用 于 创建 数据 库 的 对 象 -关系 映 
射 、 描 述 三 维 可 视 化 以 及 在 Java 源 代码 中 插入 性 能 监控 代码 。 我 甚至 为 
一 次 演讲 编写 了 一 个 简单 的 DNA 模 式 匹 配 程序 。 

一 门 语言 的 正式 描述 称 为 语法 (grammar) ，ANTLR 能 够 为 该 语言 生 
成 一 个 语法 分 析 器 ， 并 自动 建立 语法 分 析 树 一 一 一 种 描述 语法 与 输入 
文本 匹配 关系 的 数据 结构 。ANTLR 也 能 够 自动 生成 树 的 遍历 器 ， 这 样 
你 就 可 以 访问 树 中 的 节点 ， 执 行 自 定义 的 业务 逻辑 代码 。 


本 书 既 是 ANTLR 4 的 参考 手册 ， 也 是 解决 语言 识别 问题 的 指南 。 你 会 
学 到 如 下 知识 : 


识别 语言 样 例 和 参考 手册 中 的 语法 模式 ， 从 而 编写 日 定义 的 语法 。 


.循序 渐进 地 为 从 简单 的 JSON 到 复杂 的 R 语 言 编 写 语法 。 同 时 还 能 学 会 
解决 XML 和 Python 中 理 手 的 识别 问题 。 


-基于 语法 ， 通 过 壳 历 自动 生成 的 语法 分 析 树 ， 实 现 自己 的 语言 类 应 用 
程序 。 


在 特定 的 应 用 领域 中 ， 目 定义 识别 过 程 的 错误 处 理 机 制 和 鱼 旋 报告 机 
制 。 


通过 在 语法 中 舱 入 Java 动 作 (action) ， 对 语法 分 析 过 程 进 行 完全 的 掌 
控 O 


本 书 并 非 教科 书 ， 所 有 的 讨论 都 是 基于 实例 鸭 ， 生 在 令 你 巩固 所 学 的 
知识 ， 并 提供 语言 类 应 用 程序 的 基本 范例 。 


本 书 的 读者 对 象 


本 书 尤 其 适用 于 对 数据 读 取 器 、 语 言 解释 器 和 翻译 器 感 兴 趣 的 开发 
者 。 虽 然 本 书 主要 利用 ANTLR 来 完成 这 些 工 作 ， 你 仍然 可 以 学 到 很 多 
有 关 词 法 分 析 器 和 语法 分 析 器 的 知识 。 初 学 者 和 专家 都 需要 本 书 来 高 
效 地 使 用 ANTLR 4。 如 果 硕 望 学 习 第 三 部 分 中 的 高 级 特性 ， 你 需要 移 
了 解 之 前 章节 中 的 ANTLR 基 础 知识 。 此 外 ， 读 者 还 需要 具备 一 定 的 
Java 功 底 。 


Honey Badger 版 本 


ANTLR 4 的 版 本 代号 是 “Honey Badger”"， 这 个 名 字 来 源 于 一 段 著 名 的 
YouTube 短 片 The Crazy Nastyass Honey Badger (网 址 为 : 
http://www.youtube.com/watch?v=4r7WHMg5Yjg) 中 的 勇敢 无 是 的 主角 
一 只 蜜 获 。 它 敢 吃 你 给 它 的 任何 东西 ， 根 本 不 在 乎 那 是 什么 ! 


ANTLR 4 有 哪些 神奇 之 处 


ANTLR 4 引入 了 一 些 新 功能 ， 降 低 了 入 门 门板 ， 使 得 语法 和 语言 类 应 
用 程序 的 开发 更 加 容易 。 最 重要 的 新 特性 在 于 ，ANTLR 4 几乎 能 够 处 
理 任何 语法 (除了 间接 左 递归 ， 稍 后 会 提 到 ) 。 在 ANTLR 将 你 的 语法 
转换 成 可 执行 的 、 人 类 可 读 的 语法 分 析 代 码 的 过 程 中 ， 语 法 冲突 或 者 
卜 义 性 警告 不 会 再 出 现 。 


无 论 多 复杂 的 语法 ， 只 要 你 提供 给 ANTLR 自 动 生成 的 语法 分 析 器 的 输 
入 是 合法 的 ， 该 语法 分 析 器 就 能 够 自动 识别 之 。 当 然 ， 你 需要 目 行 保 
证 该 语法 能 够 准确 地 描述 目标 语言 。 
ANTLR 语 法 分 析 器 使 用 了 一 种 名 为 自 适应 LL (*) 或 者 ALL (*) ( 读 
作 “all star”) 的 新 技术 ， 它 是 由 我 和 Sam Harwell 一 起 开发 的 。ALL 
(*) 是 ANTLR 3 中 的 LL (*) 的 扩展 ， 在 实际 生成 的 语法 分 析 器 执行 
前 ， 它 能 够 在 运行 时 以 动态 方式 对 语法 执行 分 析 ， 而 非 先前 的 静态 方 
式 。 由 于 ALL (*) 语法 分 析 器 能 够 访问 实际 的 输入 文本 ， 通 过 反复 分 
析 语 法 的 方式 ， 它 最 终 能 够 决定 如 何 识别 输入 文本 。 相 比 之 下 ， 静 态 
分 析 必 须 考虑 所 有 可 行 的 (无限 长 的 ) 输入 序列 。 


在 实践 中 ， 拥 有 ALL (*) 意味 着 你 无 须 像 在 其 他 语法 分 析 器 生成 工具 
(包括 ANTLR 3) 中 那样 ， 扭 曲 语法 以 适应 底层 的 语法 分 析 策略 。 如 

果 你 曾经 为 ANTLR 3 的 歧义 性 警告 和 yacc 的 归 约 / 归 约 冲突 
(reduce/reduce conflict) 而 抓 狂 ，ANTLR 4 就 是 你 的 不 二 之 选 ! 


另外 一 个 强大 的 新 功能 是 ANTLR 4 极 大 地 简化 了 匹配 某 些 句 法 结构 

(如 编程 语言 中 的 算术 表达 式 ) 所 需 的 语法 规则 。 长 久 以 来 ， 处 理 表 
达 式 都 是 ANTLR 语 法 《以 及 手工 编写 的 递归 下 降 语 法 分 析 器 ) 的 难 
古 。 识 别 表达 式 最 目 然 的 语法 对 于 传统 的 目 顶 回 下 的 语法 分 析 胡 生成 
器 (如 ANTLR 3) 是 无 效 的 。 现 在 ， 利 用 ANTLR 4， 你 可 以 通过 如 下 
规则 匹配 表达 式 : 


expr : expr '*' expr // 匹配 乘 号 连接 的 子 表 达 式 
| expr '+' expr // 匹配 加 号 连接 的 子 表 达 式 
| INT // 匹配 简单 的 整数 因子 


类 似 expr 的 目 引 用 规则 是 递归 的 ， 更 准确 地 说 ， 是 左 递 归 (left 
recursive) 的 ， 因 为 它 的 至 少 一 个 备 选 分 支 直 接 引 用 了 它 自己 。 


ANTLR 4 目 动 将 类 似 expr 的 还 递归 规则 重 写成 了 等 价 的 非 堪 递归 形式 。 
唯一 的 约束 是 左 如 归 必 须 是 直接 的 ， 也 就 是 说 规则 直接 引用 目 喘 。 一 
条 规则 不 能 引用 男 外 一 条 规则 ， 如 末 后 者 的 备 选 分 文 之 一 在 左 侧 直 接 
引用 了 前 者 (而 没有 匹配 一 个 词法 符号 ) 。 详 见 5.4 作 。 


除了 上 述 两 项 与 语法 相关 的 改进 ，ANTLR 4 还 使 得 编写 语言 类 应 用 程 
序 更 加 容易 。ANTLR 生 成 的 语法 分 析 器 能 够 自动 建立 名 为 语法 分 析 树 
(parse tree) 的 视图 ， 其 他 程序 可 以 遍历 此 树 ， 并 在 所 需 处 理 的 结构 处 
触发 回调 函数 。 在 先前 的 ANTLR 3 中 ， 用 户 需 要 补充 语法 来 创建 树 。 
除了 自动 建立 树 结构 之 外 ，ANTLR 4 还 能 自动 生成 语法 分 析 树 遍历 器 


的 实现 : 监听 器 (listener) 或 者 访问 器 (visitor) 。 监 听 器 与 在 XML 文 
档 的 解析 过 程 中 响应 SAX 事 件 的 处 理 器 相似 。 


由 于 拥有 以 下 几 点 ANTLR 3 所 不 具备 的 新 特性 ，ANTLR 4 显得 非常 容 
易 上 手 : 


最 大 的 改变 是 ANTLR 4 降低 了 语法 中 内 蕉 动作 (代码 ) 的 重要 性 ， 取 
而 代 之 的 十 监听 右 和 访问 右 。 新 机 制 将 语法 和 应 用 的 逻辑 代码 解 精 ， 
使 得 应 用 程序 本 身 被 封装 起 来 ， 而 非 散落 在 语法 的 各 处 。 在 没有 内 赂 
动作 的 情况 下 ， 你 可 以 在 多 个 程序 中 复 用 同一 份 语法 ， 甚 至 都 无 须 重 
新 编译 生成 的 语法 分 析 器 。 虽 然 ANTLR 仍 然 允许 内 租 动 作 的 存在 ， 但 
征 在 ANTLR 4 中 ， 它 们 更 像 是 一 种 进 阶 用 法 。 这 样 的 行为 能 够 最 大 程 
度 地 掌控 语法 分 析 过 程 ， 但 其 代价 是 语法 复 用 性 的 起 失 。 


由 于 ANTLR 能 够 目 动 生 成 语法 分 析 树 和 树 的 过 历 右 ， 在 ANTLR 4 中 ， 
你 无 须 再 编写 树 语法 。 取 而 代 之 的 是 一 些 广 为 人 知 的 设计 模式 ， 如 访 
问 者 模式 。 这 意味 着 ， 在 学 会 了 ANTLR 语 法 之 后 ， 你 就 可 以 重 回 自己 
熟悉 的 Java 领 域 来 实现 真正 的 语言 类 应 用 程序 。 


:ANTLR 3 的 LL (*) 语法 分 析 策 略 不 如 ANTLR 4 的 ALL (*) 强大 ， 所 
以 ANTLR 3 为 了 能 够 正确 识别 输入 的 文本 ， 有 时 候 不 得 不 进行 回溯 。 
回溯 的 存在 使 得 语法 的 调试 格外 困难 ， 因 为 生成 的 语法 分 析 器 会 对 同 


样 的 输入 进行 〈 递 归 的 ) 多 趟 语法 分 析 。 回 溯 也 为 语法 分 析 器 在 面 对 
非法 输入 时 给 出 错误 消息 设置 了 重重 障碍 。 


ANTLR 4 是 25 年 前 我 谈 研 究 生 时 所 走 的 一 小 段 讨 路 的 成 果 。 我 想 ， 我 
也 许 会 稍微 改变 我 曾经 的 座右铭 。 


为 什么 不 花 5 天 时 间 编 程 ， 来 使 你 25 年 的 生活 目 动 化 呢 ? 


ANTLR 4 正 是 我 所 期 望 的 语法 分 析 亏 生成 丛 ， 现 在 ， 我 终于 能 够 回头 
去 癸 完 我 原先 在 20 世 纪 80 年 代 试 几 解 决 的 问题 一 一 假如 我 还 记得 它 的 
话 。 


本 书 的 主要 内 容 


本 书 是 你 所 能 找到 的 有 关 ANTLR 4 的 信息 源 中 最 好 、 最 完整 的 。 人 免费 
的 在 线 文档 提供 了 足够 多 有 关 基 础 语法 的 句法 和 语义 的 资料 ， 不 过 没 
有 详细 解释 ANTLR 的 相关 概念 。 在 本 书 中 ， 识 别 语言 的 语法 模式 和 将 
其 表述 为 ANTLR 语 法 的 内 容 是 独一无二 的 。 贯 穿 全 书 的 示例 能 够 在 构 
建 语言 类 应 用 程序 方面 助 你 一 臂 之 力 。 本 书 可 帮助 你 融会 贯通 ， 成 为 
ANTLR 专 家 。 


本 书 由 四 部 分 组 成 。 


第 一 部 分 介绍 了 ANTLR， 提 供 了 一 些 与 语言 相关 的 背景 知识 ， 并 展示 


了 ANTLR 的 一 些 简 单 应 用 。 在 这 一 部 分 中 ， 你 会 了 解 ANTLR 的 句法 以 


-第 二 部 分 是 一 部 有 关 设 计 语法 和 使 用 语法 来 构建 语言 类 应 用 程序 的 “ 百 


-第 三 部 分 展示 了 上 自 定 义 ANTLR 生 成 的 语法 分 析 器 的 错误 处 理 机 制 的 方 
法 。 随 后 ， 你 会 学 到 在 语法 中 磐 入 动作 的 方法 一 一 在 某 些 场景 下 ， 这 
样 做 比 建 立 树 并 遍历 之 更 简单 ， 也 更 有 效率 。 此 外 ， 你 还 将 学 会 使 用 
语义 判定 (semantic predicate) 来 修改 语法 分 析 器 的 行为 ， 以 便 解 决 一 
些 充 满 挑 战 的 识别 难题 。 


.本 部 分 的 最 后 一 章 解决 了 一 些 充满 挑战 的 识别 难题 ， 例 如 识别 XML 和 
Python 中 的 上 下 文 相关 的 换行 符 。 

.第 四 部 分 是 参考 章节 ， 详 细 列 出 了 ANTLR 语 法 元 语言 的 所 有 规则 和 
ANTLR 运 行 库 的 用 法 。 


完全 不 了 解 语法 和 语言 识别 工具 的 读者 请 务必 从 头 开 始 阅读 。 具 备 
ANTLR 3 使 用 经 验 的 用 户 可 从 第 4 章 开 始 阅读 以 学 习 ANTLR 4 的 新 功 


侣 巴 
月 世 “ 


有 关 ANTLR 的 更 多 在 线 学 习 资料 


在 http:/www.antlrorg 上 ， 你 可 以 找到 ANTLR、ANTLRWorks2 图 形 界面 
开发 环境 、 文 档 、 预 制 的 语法 、 示 例 、 文 章 ， 以 及 文件 共享 区 。 技 术 


文 持 邮件 组 是 一 个 对 初学 者 十 分 友好 的 公开 讨论 组 。 
‘Terence Parr 


2012 年 11 月 于 旧金山 大 学 
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第 一 部 分 ANTLR 和 计算 机 语言 简 
介 


在 第 一 部 分 中 ， 我 们 会 安装 ANTLR， 党 试 通过 它 来 识别 一 个 简单 

的 “hello world” 语 法 ， 并 概 哆 语言 类 应 用 程序 的 开发 过 程 。 在 此 基础 
上 ， 我 们 会 构造 一 个 语法 来 识别 和 翻译 形 如 {1，2，3} 的 花 括 号 中 的 一 
列 整数 。 最 后 ， 我 们 将 通过 一 系列 的 简单 语法 和 程序 来 快速 了 解 
ANTLR 的 特性 。 


第 1 章 初 识 ANTLR 


在 本 书 的 第 一 部 分 中 ， 我 们 的 目标 是 大 体 上 知道 ANTLR 能 做 什么 。 除 
此 之 外 ， 我 们 还 希望 探究 语言 类 应 用 程序 的 架构 。 在 概览 之 后 的 第 2 章 
中 ， 我 们 将 会 通过 许多 真实 的 例子 来 循序 渐进 地 、 系 统 性 地 学 习 

ANTLR。 在 开始 之 前 ， 我 们 需要 首先 安 效 ANTLR， 然 后 党 试用 它 编写 


一 份 简单 的 “hello world” 语 法 。 


1.1 安装 ANTLR 


ANTLR 是 用 Java 编 写 的 ， 因 此 你 需要 首先 安装 Java， 哪 伯 你 的 目标 是 

使 用 ANTLR 来 生成 其 他 语言 《如 C# 和 C++) 的 解析 器 。 (我 希望 在 不 
远 的 未 来 ANTLR 可 以 支持 更 多 语言 。) ANTLR 运 行 所 需 的 Java 版 本 为 
1.6 或 更 高 。 


为 什么 本 书 使 用 命令 行 


在 整 本 书 中 ， 我 们 都 会 使 用 命令 行 (shell) 来 运行 ANTLR 和 构建 我 们 
的 程序 。 因 为 开发 者 使 用 的 开发 环境 和 操作 系统 五 伦 八 门 ， 因 此 只 有 
操作 系统 的 shell 才 十 我 们 公用 的 “界面 ”。 使 用 shell 也 使 得 开发 语言 程序 
的 每 一 个 步 又 更 加 清晰 和 明确 。 在 本 书 中 我 将 会 一 直 使 用 Mac OS X 作 
为 示例 ， 不 过 这 些 示例 命令 理论 上 应 该 能 够 在 任何 类 UNIX 系 统 的 shell 
中 正 遇 工作， 同时， 在 稍 作 修 改 后 ， 它 们 应 该 能 够 适用 于 Windows。 


安装 ANTLR 本 喘 仅 仅 需 要 下 载 最 新 的 jar 包 (例如 antlr-4.0- 
complete.jar) ， 然 后 把 它 放 在 合适 的 位 置 。 该 jar 包 包含 了 运行 ANTLR 
的 工具 和 编译 、 执 行 ANTLR 产 生 的 识别 程序 所 依赖 的 全 部 运行 库 。 它 
们 有 何 区 别 呢 ? 简 而 言 之 ，ANTLR 工 具 将 语法 文件 转换 成 可 以 识别 该 
语法 文件 所 描述 的 语言 的 程序 。 例 如 ， 给 定 一 个 识别 JSON 的 语法 ， 
ANTLR 工 具 将 会 根据 该 语法 生成 一 个 程序 ， 此 程序 可 以 通过 ANTLR 运 
行 库 来 识别 输入 的 JSON 。 


上 述 jar 包 还 包 舍 两 个 用 于 提供 相关 文 持 的 库 : 一 个 复杂 的 树 形 结构 生 
成 库 和 StringTemplate， 这 一 个 用 于 生成 代码 和 其 他 结构 化 文本 的 优秀 
的 模板 引擎 。 在 ANTLR 4.0 中 ， 语 法 本 身 是 通过 ANTLR 3 来 识别 的 ， 
所 以 上 述 完 整 版 的 jar 包 还 包含 ANTLR 的 早期 版 本 。 


StringTemplate 引 警 


StringTemplate 是 一 个 Java 编 写 的 模板 引擎 ， 用 于 生成 源 代 码 、 了 网 页 、 
电子 邮件 或 者 其 他 任何 格式 化 的 输出 文本 〈 已 经 文 持 C#、Python、 
Ruby 和 Scala) 。StringTemplate 在 生成 多 目标 的 代码 、 多 站 点 皮肤 和 国 
际 化 /本 地 化 方面 表现 尤其 出 色 。 它 是 在 jGuru.com 的 多 年 开发 过 程 中 逐 
渐 成 形 的 。StringTemplate 也 用 于 生成 网 站 ， 以 及 为 ANTLR 3 和 ANTLR 
4 的 代码 生成 器 提供 有 力 的 支持 。 关 于 StringTemplate 的 更 多 信息 详 见 其 


帮助 页 面 (http://www.stringtemplate.org/about.html) 。 


你 可 以 通过 浏 贤 器 从 ANTLR 的 网 站 下 载 ANTLR， 或 者 使 用 命令 行 工 具 
curl: 


$ cd /usr/local/lib 
$ curl -0 http://www.antlr.org/download/antlr-4.0-complete.jar 


在 UNIX 上 ，/usr/locallib 非 常 适 于 存放 jar 包 。 在 Windows 上 ， 似 乎 没有 
标准 的 存放 jar 包 的 目录 ， 因 此 你 可 以 简单 地 将 它 放 在 项 目 文件 夹 下 。 
大 多 数 开发 环境 要 求 你 将 jar 包 放 在 你 的 语言 类 应 用 程序 的 依赖 列表 

中 。 不 需要 修改 配置 脚本 或 者 配置 文件 之 类 的 东西 一 一 你 只 需要 保证 
Java 能 够 找到 这 个 jar 包 即 可 。 


因为 本 书 使 用 的 是 命令 行 ， 你 需要 担负 设置 CLASSPATH 环 境 变 量 的 重 
任 。 通 过 设置 好 的 CLASSPATH 环 境 变 量 ，Java 束 能 够 找到 ANTLR 工 具 
和 运行 库 。 在 UNIX 系 统 上 ， 你 可 以 手动 执行 以 下 命令 或 者 将 其 添加 到 
启动 脚本 中 〈 对 于 bash 命 令 行 ， 就 是 .bash_profile) : 


$ export CLASSPATH=".:/usr/local/lib/antlr-4.0-complete.jar:$CLASSPATH" 


注意 ，CLASSPATH 中 的 点 非常 关键 ， 它 代表 当前 目录 。 没 有 它 ，Java 
编译 器 和 Java 虚 拟 机 就 无 法 加 载 当 前 目录 的 class 文 件 。 在 本 书 中 ， 所 有 
的 编译 和 测试 都 是 在 当前 目录 中 进行 的 。 


有 两 种 方式 可 以 检查 ANTLR 的 安 狠 是否 正 确 ， 第 一 种 是 通过 不 市 参数 


一 一 


的 ANTLR 命 令 行 工 具 ， 第 二 种 是 通过 java-jar 来 直接 运行 ANTLR 的 jar 包 


或 者 直接 调用 org.antlr.v4.Tool 类 。 


$ java -jar /usr/local/lib/antlr-4.0-complete.jar # 启动 org.antlr.v4.Tool 


ANTLR Parser Generator Version 4.0 
-0 specify output directory where all output is generated 


-Lib specify Location of .tokens files 


$ java org.antlr.v4.Tool # 启动 org.antlr.v4.Tool 


ANTLR Parser Generator Version 4.0 
-0 specify output directory where all output is generated 


-Lib specify location of .tokens files 


寸 另 


每 次 都 手动 输入 这 些 java 命 令 是 一 件 令 人 痛 闸 的 事情 ， 所 以 最 好 通过 别 
名 (alias) 或 者 shell 脚 本 的 方式 。 本 书 接 下 来 将 会 使 用 名 为 antlr4 的 别 
名 ， 在 类 UNIX 系 统 上 的 定义 如 下 : 


$ alias antLr4='java -jar /usr/local/lib/antlr-4.0-complete.jar' 


此 外 ， 也 可 以 将 上 还 命 令 写 入 /usr/local/bin。 


install/antlr4 
#!/bin/sh 
java -cp "/usr/\local/lib/antlr4-complete.jar:$CLASSPATH" org.antlr.v4.Tool $* 


在 Windows 上 ， 可 以 通过 如 下 批 处 理 命 令 (假设 ANTLR 的 jar 包 已 经 被 
放置 在 C: \ibraries) 实现 : 


install/antlr4.bat 
java -cp C:\libraries\antlr-4.0-complete.jar;%CLASSPATH% org.antlr.v4.Tool %* 


不 管用 哪 种 方法 ， 现 在 我 们 可 以 直接 使 用 antlr4 命 全 了 。 


$ antLr4 
ANTLR Parser Generator Version 4.0 
-0 specify output directory where all output is generated 


-lib specify Location of .tokens files 


如 果 你 看 到 了 和 上 面 一 样 的 帮助 信息 ， 证 明 一 切 就 绪 ， 可 以 开始 接 下 
来 的 ANTLR 之 旅 了 ! 
1.2 运行 ANTLR 并 测试 识别 程序 


下 面 是 一 个 简单 的 、 识 别 类 似 hello world 和 hello parrt 的 词组 的 语法 : 


install/Hello.g4 


grammar Hello; // 定义 一 个 名 为 Hello 的 语法 
r : 'hello' ID ， // 匹配 一 个 关键 字 heLLo 和 一 个 紧 随 其 后 的 标识 符 
ID : [a-z]+ ; // 匹配 小 写字 母 组 成 的 标识 符 


WS : [ \t\rn]+ -> Skip ; // 忽略 空格 、Tab、 换 行 以 及 Nr (Windows) 


为 整 涪 起 匈 ， 我 们 把 这 个 语法 文件 放 到 它 目 己 的 目录 里 ， 如 /tmp/test 。 
接 下 来 对 该 语法 文件 运行 ANTLR 命 令 并 编译 生成 的 结果 。 


$ cd /tmp/test 

$ # 下 载 或 复制 粘贴 上 述 代 码 ， 并 将 Hello .9g4 放 在 /tmp/test 目录 下 

$ antLr4 Hello.g4 # 使 用 之 前 定义 过 的 antLr4 命令 生成 语法 分 析 器 和 词法 分 析 器 。 
$ 1s 


Hello.g4 HelloLexer.java HelloParser.java 
Hello.tokens HelloLexer.tokens 
HeLLoBaseListener,java HelloListener.java 

$ javac *.java # 编译 ANTLR 生成 的 java 代码 


对 Hello.g4 运 行 ANTLR 工 具 命令 生成 了 一 个 由 HelloParserjava 和 
HelloLexerjava 组 成 的 、 可 以 运行 的 语法 识别 程序 ， 不 过 我 们 还 缺 一 个 
main 程 序 来 触发 这 个 语言 识别 的 过 程 。 (语法 分 析 器 和 词法 分 析 器 的 


介绍 详 见 下 一 章 。) 这 就 是 项 目 刚 开始 时 的 典型 过 程 。 在 开始 构建 一 
个 实际 的 程序 之 前 ， 你 可 以 多 熟悉 一 下 这 些 不 同 的 语法 。 无 须 对 每 个 
新 的 语法 都 编写 一 个 main 程 序 来 测试 。 


ANTLR 在 运行 库 中 提供 了 一 个 名 为 TestRig 的 方便 的 调试 工具 。 它 可 以 
详细 列 出 一 个 语言 类 应 用 程序 在 匹配 输入 文本 过 程 中 的 信息 ， 这 些 输 
入 文本 可 以 来 自 文件 或 者 标准 输入 。TestRig 使 用 Java 的 反射 机 制 来 调用 
编译 后 的 识别 程序 。 与 之 前 一 样 ， 最 好 通过 别名 或 者 批 处 理 文 件 来 调 
用 它 。 在 本 书 中 ， 我 将 会 使 用 grun 作 为 别名 ， 你 可 以 使 用 任何 你 喜欢 的 
别名 。 


$ alias grun='java org.antLr.v4.runtime.misc.TestRig' - 


( 注 : 在 本 书 翻译 时 的 最 新 版 本 (ANTLR 4.6) 中 ，TestRig 已 经 移 至 
org.antlr.v4.gui 包 。 一 一 译 者 注 ) 


测试 组 件 有 点 像 是 main () 方法 ， 接 收 一 个 语法 名 和 一 个 起 始 规 则 名 
作为 参数 ， 此 外 ， 它 还 接收 众多 的 参数 ， 通 过 这 些 参数 我 们 可 以 指定 
输出 的 内 容 。 假 设 我 们 硕 望 显示 识别 过 程 中 生成 的 词法 符号 。 词 法 符 
号 征 类 似 于 关键 字 hello 和 标识 符 parrt 的 符号 。 可 以 通过 以 下 命令 局 动 
grun， 测 试 之 前 的 语法 : 


和 $ grun Hello r -tokens # 使 用 Hello 语法 和 『 规则 局 动 TestRig 

hello parrt # 键入 要 被 识别 的 语句 

今 EoF # 在 UNIX 系统 上 键入 Ctrl+D 或 者 Windows 系统 上 键入 CtrL+Z 
来 输入 文件 结束 符 


《 [@0,0:4='hello',<1>,1:0] ，# 以 下 三 行 是 grun 的 输出 
[@1,6:10='parrt' ,<2>,1:6] 
[@2,12:11='<E0F>' ,<-1>,2:0] 


首先 输入 上 述 grun 命 令 ， 回 车 ， 然 后 输入 hello parrt， 回 车 。 这 个 时 
候 ， 你 必须 手动 输入 文件 结束 符 (end-of-file character) 来 阻止 程序 继 
续 读 取 标 准 输入 ， 和 否则， 程序 将 什么 都 不 做 ， 静 静 等 待 你 的 下 一 步 输 
入 。 由 于 grun 命 令 使 用 了 -tokens 选 项 ， 一 旦 识别 程序 读 取 到 全 部 的 输入 
内 容 ，TestRig 就 会 打印 出 全 部 的 词法 符号 的 列表 。 


每 行 输出 代表 了 一 个 词法 符号 ， 其 中 包含 了 该 词法 符号 的 全 部 信息 。 
例如 ，[@1，6: 10=part ，<2>，1: 6] 表 明 ， 这 个 词法 符号 位 于 第 二 
个 位 置 (从 0 开始 计数 ) ， 由 输入 文本 的 第 6 个 到 第 10 个 位 置 之 间 的 字 
符 组 成 (包含 第 6 个 和 第 10 个 ， 同 样 从 0 开始 计数 ) ; 包含 的 文本 内 容 
是 parrt; 词法 符号 类 型 是 2 ( 即 ID) ; 位 于 输入 文本 的 第 一 行 、 第 6 个 


位 置 处 〈 从 0 开始 计数 ，tab 符 号 被 看 作 一 个 字符 ) 。 


我 们 可 以 很 容易 地 打印 出 LISP 风 格 文本 格式 的 语法 分 析 树 ( 根 节点 和 
子 节点 在 同一 行 ) 。 


> $ grun Hello r -tree 
> heLLo parrt 

= Eo 

《 (r hello parrt) 


要 想 知 道 识别 程序 是 如 何 识别 输入 文本 的 ， 最 简单 的 办 法 是 查看 可 视 
化 的 语法 分 析 树 。 使 用 grun-gui 运 行 TestRig， 即 grun Hello rgui， 将 产 
生 如 图 1-1 所 示 的 对 话 框 。 


r 


hello parrt 
= ) 
(ox | 


图 1-1 运行 TestRig 后 的 对 话 框 


当 不 带 参 数 地 运行 TestRig 时 ， 会 产生 一 些 帮 助 信息 .: 


$ grun 

java org.antlr.v4.runtime.misc.TestRig GrammarName startRuleName 
[-tokens] [-tree] [-guil [-ps file.ps] [-encoding encodingname] 
[-trace] [-diagnostics] [-SLL] 
[input-filename(s)] 

Use startRuleName='tokens' if GrammarName is a lexer grammar. 

Omitting input-filename makes rig read from stdin. 


在 本 书 中 ， 我 们 将 会 使 用 其 中 的 很 多 选项 ， 下 面 是 它们 的 简单 介绍 : 


-tokens 打印 出 词法 符号 流 。 


-tree ”以 LISP 格 式 打印 出 语法 分 析 树 。 
-gui 在 对 话 框 中 以 可 视 化 方式 显示 语法 分 析 树 。 


-ps file.ps ”以 PostScript 格 式 生 成 可 视 化 语法 分 析 树 ， 然 后 将 其 存储 于 
file.ps。 本 章 中 的 语法 分 析 树 的 图 片 就 是 使 用 -ps 选项 生成 的 。 


-encoding encodingname 者 当前 的 区 域 议 定 无 法 正确 读 取 和 输入， 使 用 
这 个 选项 指定 测试 组 件 输入 文件 的 编码 。 例 如 ， 在 12.4 节 中 我 们 需要 通 
过 这 个 选项 来 解析 日 语 XML 文 件 。 


-trace 打印 规则 的 名 字 以 及 进入 和 离开 该 规则 时 的 词法 符号 。 
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-diagnostics ”开局 解析 过 程 中 的 调试 信息 输出 。 通 第 仅 在 一 些 罕见 情况 
下 才 使 用 它 产生 信息 ， 例 如 输入 的 文本 有 上 收 义 。 


-SLL ”使 用 为 外 一 种 更 快 但 是 功能 稍 哗 的 解析 策略 。 


现在 ， 我 们 已 经 成 功 地 安装 了 ANTLR， 并 尝试 着 用 它 分 析 了 一 个 简单 
的 语法 。 在 下 一 章 中 ， 让 我 们 后 退 一 步 ， 先 纵 观 全 局 ， 学 习 一 些 重要 
的 术语 。 之 后 ， 我 们 将 会 尝试 建立 一 个 简单 的 入 门 工程 来 识别 和 翻译 
一 列 形 如 {1，2，3} 的 数字 。 接 下 来 ， 在 第 4 章 中 我 们 将 会 学 习 一 系列 
有 趣 的 例子 ， 这 些 例子 展示 了 ANTLR 的 强大 功能 以 及 可 被 应 用 的 领 

域 。 


第 2 章 纵 观 全 局 


在 上 一 章 中 ， 我 们 安装 了 ANTLR， 了 解 了 如 何 构建 和 运行 一 个 简单 的 
示例 语法 。 在 本 章 中 ， 我 们 将 纵 观 全 局 ， 学 习 语 言 类 应 用 程序 相关 的 
重要 过 程 、 术 语 和 数据 结构 。 随 着 学 习 的 深入 ， 我 们 将 认识 一 些 关 键 
的 ANTLR 对 象 ， 并 简单 了 解 ANTLR 在 背后 帮助 我 们 完成 的 工作 。 


2.1 从 ANTLR 元 语言 开始 


为 了 实现 一 门 编程 语言 ， 我 们 需要 构建 一 个 程序 ， 读 取 输 入 的 语句 ， 

对 其 中 的 词组 和 输入 符号 进行 正确 的 处 理 。 语 言 (language) 由 一 系列 
有 意义 的 语句 组 成 ， 语 句 (sentence) 由 词组 组 成 ,词组 (phrase) 是 
由 更 小 的 子 词组 (subphrase) 和 词汇 符号 (vocabulary symbol) 组 成 。 
一 般 来 说 ， 如 果 一 个 程序 能 够 分 析 计 算 或 者 “执行 语句， 我 们 就 称 之 
为 解释 器 (interpreter) 。 这 样 的 例子 包括 计算 器 、 读 取 配 置 文件 的 程 
序 和 Python 解释 器 。 如 果 一 个 程序 能 够 将 一 门 语 言 的 语句 转换 为 另外 一 
门 语言 的 语句 ， 我 们 称 之 为 翻译 器 (translator) 。 这 样 的 例子 包括 Java 
到 C# 的 转换 器 和 普通 的 编译 器 。 


为 了 达到 预期 的 目的 ， 解 释 器 或 者 翻译 絮 需 要 识别 出 一 门 特定 语言 的 
所 有 的 有 意义 的 语句 、 词 组 和 子 词组 。 识 别 一 个 词组 意味 着 我 们 可 以 
将 它 从 众多 的 组 成 部 分 中 辨认 和 区 分 出 来 。 例 如 ， 我 们 能 够 将 输入 

的 “sp=100; ”识别 为 一 个 赋值 语句 ， 这 意味 着 我 们 需要 知道 sp 是 被 赋值 


的 目标 ，100 是 要 被 赋 了 予 的 值 。 与 之 类 似 ， 如 和 我 们 要 识别 英文 语句 ， 
瑟 需 要 辨认 出 一 段 对 话 的 不 同 部 分 ， 例 如 主语 、 谓 语 和 宾语 。 识 别 语 
名 “sp=100; “还 意味 着 语言 类 应 用 程序 能 够 将 它 和 import 表 达 式 之 类 的 
语句 区 分 开 。 在 成 功 识 别 后 ， 程 序 就 能 执行 适当 的 操作 ， 诸 如 


performAssignment ("sp"，100) 或 者 translateAssignment ("sp"， 


100) 。 


识别 语言 的 程序 称 为 语法 分 析 器 (parser) 或 者 句法 分 析 器 (syntax 
analyzer) 。 句 法 (syntax) 是 指 约 束 语言 中 的 各 个 组 成 部 分 之 间 关 系 
的 规则 ， 在 本 书 中 ， 我 们 会 通过 ANTLR 语 法 来 指定 语言 的 句法 。 语 法 
(grammar) 是 一 系列 规则 的 集合 ， 每 条 规则 表述 出 一 种 词汇 结构 。 
ANTLR 工 具 能 够 将 其 转换 为 如 同 经 验 丰 富 的 开发 者 手工 构建 一 般 的 语 
法 分 析 器 (ANTLR 是 一 个 能 够 生成 其 他 程序 的 程序 ) 。ANTLR 语 法 本 
身 又 遵循 了 一 种 专门 用 来 描述 其 他 语言 的 语法 ， 我 们 称 之 为 ANTLR 元 
语言 (ANTLR’s meta-language) 。 


如 采 我 们 将 语法 分 析 的 过 程 分 解 为 两 个 相似 但 独立 的 任务 或 者 说 阶段 
时 ， 实 现 起 来 整容 易 多 了 。 这 两 个 阶段 与 我 们 的 大 脑 阅 读 英 文 文本 的 
过 程 相 类 似 。 我 们 并 不 是 一 个 字符 一 个 字符 地 阅读 一 个 句子 ， 而 十 将 
句子 看 作 一 列 单词 。 在 识别 整个 句子 的 语法 结构 之 前 ， 人 类 的 大 脑 冰 
先 通过 潜意识 将 字符 聚集 为 单词 ， 然 后 获取 每 个 单词 的 意义 。 这 个 过 
程 在 阅读 摩 斯 电码 的 时 候 更 加 明显 ， 因 为 我 们 需要 首先 将 点 和 划 转 换 


为 字符 才能 获取 消 轧 本 号 。 同 样 的 事情 也 发 生 在 阅读 长 单词 时 ， 比 如 


说 阅读 这 个 单词 Humuhumunukunukuapua 拼 一 一 它 是 夏威夷 的 州 鱼 。 


将 字符 聚集 为 单词 或 者 符号 (词法 符号 ，token) 的 过 程 称 为 词法 分 析 
(lexical analysis) 或 者 词法 符号 化 (tokenizing) 。 我 们 把 可 以 将 输入 
文本 转换 为 词法 符号 的 程序 称 为 词法 分 析 器 (lexer) 。 词 法 分 析 器 可 
以 将 相关 的 词法 符号 归 类 ， 例 如 INT (整数 ) 、ID (标识 符 ) 、FLOAT 
( 浮 点 数 ) 等 。 当 语法 分 析 器 不 关心 单个 符号 ， 而 仅 关心 符号 的 类 型 
时 ， 词 法 分 析 器 就 需要 将 词汇 符号 归 类 。 词 法 符号 包含 至 少 两 部 分 信 
筷 : 词法 符号 的 类 型 (从 而 能 够 通过 类 型 来 识别 词法 结构 ) 和 该 词法 
符号 对 应 的 文本 。 


第 二 个 阶段 是 实际 的 语法 分 析 过 程 ， 在 这 个 过 程 中 ， 输 入 的 词法 符号 
被 “消费 ”以 识别 语句 结构 ， 在 上 例 中 即 为 赋值 语句 。 默 认 情况 下 ， 
ANTLR 生 成 的 语法 分 析 器 会 建造 一 种 名 为 语法 分 析 树 (parse tree) 或 
者 句法 树 (syntax tree) 的 数据 结构 ， 该 数据 结构 记录 了 语法 分 析 器 识 
别 出 输 入 语句 结构 的 过 程 ， 以 及 该 结构 的 各 组 成 部 分 。 图 2-1 展 示 了 数 
据 在 一 个 语言 类 应 用 程序 中 的 基本 流动 过 程 。 


语法 分 析 树 
Te ie stat 
DA DA 、 
子 付 性 词法 符号 dlssion 


Wn 词法 本 
sp= 100; 区 分 析 器 > sp= 100; [> 分 析 器 [> S44 > ’ 


图 2-1 某 数 据 在 语言 类 程序 中 的 流动 过 程 


语法 分 析 树 的 内 部 节点 是 词组 名 ， 这 些 名 字 用 于 识别 它们 的 子 市 点 ， 
并 将 于 太太 归 类 


根 节 点 是 最 抽象 的 一 个 名 字 ， 在 本 例 中 即 stat (statement 的 简写 ) 。 语 
法 分 析 树 的 叶子 市 点 永远 是 输入 的 词法 符号 。 人 句子， 也 即 符号 的 线性 
组 合 ， 本 质 上 是 语法 分 析 树 在 人 脑 中 的 串 行 化 。 为 了 能 与 其 他 人 沟 
通 ， 我 们 需要 使 用 一 串 单词 ， 使 得 他 们 能 在 脑海 中 构建 出 一 棵 相同 的 
语法 分 析 树 。 


通过 语法 分 析 树 这 种 方便 的 数据 结构 ， 语 法 分 析 右 整 能 将 诸如 “符号 是 
如 何 构成 词组 的 "这样 的 完整 信息 传达 给 程序 的 其 余部 分 。 树 结构 不 仅 
在 后 续 的 步 又 中 易于 处 理 ， 而 且 也 是 一 种 为 开发 者 所 熟知 的 数据 结 
构 。 六 运 的 是 ， 语 法 分 析 器 能 够 目 动 生成 语法 分 析 树 。 


是 直接 在 语法 文件 中 嵌入 与 这 种 程序 相关 的 代码 。ANTLR 4 仍然 允许 
这 种 传统 的 方案 ( 详 见 第 10 章 ) ， 不过， 使 用 语法 分 析 树 可 以 使 程序 
更 整 涪 、 解 而 性 更 强 。 


在 语言 的 翻译 过 程 中 ， 一 个 阶段 依赖 于 前 一 个 阶段 的 计算 结 末 和 信 
轧 ， 因 此 需要 多 次 进行 树 的 遍历 (tree walk) ， 这 种 情况 下 语法 分 析 树 


也 是 非常 有 用 的 。 在 其 他 情况 下 ， 将 一 个 复杂 的 程序 分 解 为 多 个 阶段 
会 大 大 简化 编码 和 测试 工作 ， 与 其 每 个 阶段 都 重新 解析 一 下 输入 的 字 
符 流 ， 不 如 首先 生成 语法 分 析 树 ， 然 后 多 次 访问 其 中 的 节点 ， 这 样 更 
有 效率 。 


由 于 我 们 使 用 一 系列 的 规则 指定 语句 的 词汇 结构 ， 语 法 分 析 树 的 子 树 
的 根 世 点 驶 对 应 语法 规则 的 名 字 。 在 下 文 的 长 篇 大 论 之 前 ， 我 们 爷 看 
一 个 例子 。 下 面 这 条 语法 规则 对 应 图 2-1 中 的 赋值 语句 子 树 的 第 一 级 : 


assign : ID '=' expr ';'; // 匹配 一 个 类 似 "sp = 100; "的 赋值 语句 


使 用 和 调试 ANTLR 语 法 的 一 个 基本 要 求 是 ， 理 解 ANTLR 是 如 何 将 这 样 
的 规则 转换 为 人 类 可 阅读 的 语法 分 析 程 序 的 ， 因 此 接 下 来 我 们 将 深入 
研究 语法 分 析 的 过 程 。 


2.2 实现 一 个 语法 分 析 器 


ANTLR 工 具 依据 类 似 于 我 们 之 前 看 到 的 assign 的 语法 规则 ， 产 生 一 个 递 
归 下 降 的 语法 分 析 器 (recursive-descent parser) 。 递 归 下 降 的 语法 分 析 
妖 实 际 上 是 若干 递归 方法 的 集合 ， 每 个 方法 对 应 一 条 规则 。 下 降 的 过 
程 就 是 从 语法 分 析 树 的 根 节点 开始 ， 朝 着 叶 市 点 (词法 符号 ) 进行 解 
析 的 过 程 。 首 先 调用 的 规则 ， 即 语义 符号 的 起 始点 ， 就 会 成 为 语法 分 
析 树 的 根 节 点 。 在 前 一 节 的 例子 中 ， 就 是 调用 stat () 方法 作为 起 始点 


的 。 这 种 解析 过 程 的 更 广为人知 的 名 字 是 “有 目 上 而 下 的 解析 ”， 束 归 下 
降 的 语法 分 析 右 仅仅 是 目 上 而 下 的 语法 分 析 右 的 一 种 实现 。 


下 面 是 一 个 ANTLR 根 据 assign 规 则 生成 的 方法 (稍微 经 过 格式 整理 ) ， 
用 于 展示 递归 下 降 的 语法 分 析 器 的 实现 细 广 : 


// assign 3 1D "=" expr' "$$" »$ 


void assign() { // 根据 assign 规则 生成 的 方法 
match (ID); // 将 当前 的 输入 符号 和 ID 相 比 较 ， 然 后 将 其 消费 掉 
match('="'); 
expr() ; // 通过 调用 方法 expr( ) 来 匹配 一 个 表达 式 
match(';»'); 


递归 下 降 的 语法 分 析 器 最 神奇 的 地 方 在 于 ， 通 过 方法 stat () 、assign 
() 和 expr () 的 调用 描绘 出 的 调用 路 线 图 映射 到 了 语法 分 析 树 的 节点 
上 《请 迅速 回顾 一 下 图 2-1) 。 调 用 match () 对 应 了 语法 分 析 树 的 叶子 
世 点 。 在 手工 构造 的 语法 分 析 右 中 ， 我 们 需要 在 每 条 规则 对 应 的 方法 
的 开始 位 置 插入 “增加 一 个 新 的 子 树 根 节 点 "这样 的 操作 ， 在 match () 
方法 中 插入 “ 描 加 一 个 新 的 叶子 节点 "这样 的 操作 。 


assign () 方法 仅仅 验证 所 有 的 词汇 符号 都 存在 且 顺 序 正 确 。 当 语法 分 
析 器 进入 assign () 方法 的 内 部 时 ， 仪 有 一 个 备 选 分 支 (alternative) ， 
无 须 做 出 选择 。 一 个 备 选 分 文 指 的 是 规则 的 右 侧 定 义 的 多 个 方案 之 
一 。 例 如， 除了 assign 之 外 ， 下 面 的 stat 规 则 还 可 能 对 应 其 他 多 种 语 
i 


/** 从 当前 输入 位 置 开始 ， 匹 配 多 种 语句 。*/ 
2 


stat: assign // 第 一 个 备 选 分 支 (' | ， 符 号 是 备 选 分 支 的 分 隔 符 ) 
| ifstat // 第 二 个 备 选 分 支 
| whilestat 


对 stat 语 法 规则 的 解析 像 是 一 个 Switch 语句 : 


void stat() { 
Switch ( 《% 当前 输入 的 词法 符号 »》) { 
CASE ID : assign(); break; 
CASE IF : ifstat(); break; // IF 是 if 关键 字 的 词法 符号 类 型 
CASE WHILE : whilestat(); break; 


default : % 抛 出 无 可 选 方案 的 异常 ”六 


stat () 方法 必须 通过 检查 下 一 个 词法 符号 来 做 出 语法 分 析 决 策 

(parsing decision) 或 者 预测 (prediction) 。 做 出 决策 的 过 程 实际 上 就 
是 判断 哪 一 个 备 选 分 文 是 正确 的 。 在 上 面 的 例子 中 ， 一 个 WHILE 关键 
字 意 味 着 它 选 择 stat 规 则 的 第 三 个 备 选 分 文 。 因 此 ，stat () 方法 将 调用 
whilestat () 方法 。 你 可 能 听 说 过 前 瞻 词 法 符号 (lookahead token) 这 
个 术语 ， 它 其 实 就 是 下 一 个 输入 的 词法 符号 。 一 个 前 瞻 词 法 符号 是 指 
任何 一 个 在 被 匹配 和 消费 之 前 就 由 语法 分 析 器 嗅 探 出 的 词法 符号 。 有 
些 时 候 ， 语 法 分 析 器 需要 很 多 个 前 瞻 词 法 符号 来 判断 语义 规则 的 哪个 
方案 是 正确 的 ， 甚 至 可 能 要 从 当前 的 词法 符号 的 位 置 开 始 ， 一 直 分 析 
到 文件 末尾 才能 做 出 判断 ! ANTLR 默 默 地 帮 你 完成 了 所 有 的 这 些 工 
作 ， 不 过 ， 对 其 决策 过 程 的 基本 理解 将 会 有 助 于 调试 ANTLR 自 动 生 成 
的 语法 分 析 器 。 


为 了 让 语法 分 析 的 决策 过 程 可 视 化 ， 想 象 一 个 迷宫， 它 只 有 一 个 入 口 
和 一 个 出 口 ， 迷 宫 的 地 板 上 写 着 单词 。 每 个 从 入 口 到 出 口 的 路 径 上 的 
单词 序列 代表 一 个 语句 。 这 个 迷宫 的 结构 就 好 比 是 一 种 语言 所 定义 的 
全 部 语法 规则 。 为 了 测试 一 个 语句 是 不 是 合法 ， 我 们 将 这 个 语句 中 的 
单词 和 迷宫 的 地 板 上 的 单词 比较 ， 然 后 沿 着 这 个 语句 的 单词 所 描述 的 
路 径 在 迷宫 中 前 进 。 如 采 我 们 能 够 通过 这 个 语句 中 的 单词 序列 指定 的 
路 径 到 达 出 口 ， 那 么 这 个 语句 束 是 合法 的 。 


为 了 到 达 迷 店 的 出 口 ， 我 们 必须 在 每 个 分 岔路 口 选 择 一 条 正确 的 路 
径 ， 就 好 像 一 个 语法 分 析 器 要 在 多 个 备 选 分 文中 做 出 选择 一 样 。 我 们 
必须 将 语句 中 搂 下 来 的 若干 个 单词 与 站 在 路 口 所 看 到 的 不 同 岔路 地 板 
上 的 单词 相 比 较 ， 从 而 决定 走 哪 条 从 路 。 我 们 站 在 路 口 所 看 到 的 地 板 
上 的 单词 束 好 像 是 前 脆 词 法 符号 。 显 然 ， 帮 每 条 人 当 路 都 以 一 个 独 一 无 
二 的 单词 开始 ， 做 出 选择 融会 容易 许多 。 在 上 例 中 的 stat 规 则 中 ， 每 个 
备 选 分 支 都 是 以 一 个 独一无二 的 词法 符号 开始 的 ， 因 此 stat () 方法 可 
以 通过 检查 第 一 个 前 瞻 词 法 符号 来 区 分 不 同 的 备 选 分 文 。 


当 每 条 岔路 的 起 始 单词 有 重复 的 时 候 ， 语 法 分 析 峰 就 需要 更 多 地 进行 
前 脆 ， 即 通过 扫描 更 多 的 单词 来 区 分 不 同 的 备 选 分 支 。 在 每 次 语法 分 
析 决 策 中 ，ANTLR 能 够 根据 情况 目 动 调整 前 脆 的 数量 。 如 来 通过 前 
瞻 ， 我 们 能 够 经 多 条 路 径 抵达 迷宫 出 口 (文件 末尾 ) ， 那 就 意味 着 能 
够 用 多 种 语义 去 解释 当前 的 输入 文本 。 解 决 这 种 收 义 是 我 们 下 一 节 的 


任务 ， 之 后 ， 我 们 将 会 学 习 如 何 使 用 语法 分 析 树 来 构建 语言 类 应 用 程 
js 


2.3 你 再 也 不 能 往 核 反应 堆 多 加 水 了 


攻 义 性 语句 是 指 存在 不 止 一 种 语义 的 语句 。 换 名 话说 ， 攻 义 性 语句 中 
的 单词 序列 能 够 匹配 多 种 语法 结构 。 本 市 的 标题 “你 再 也 不 能 往 核反应 
堆 多 加 水 了 ” 束 古 我 在 几 年 前 的 《 周 六 夜 现场 》 中 看 到 的 一 个 有 上 由 义 的 
人 句子。 这 人 句 话 让 人 不 确定 ， 是 已 经 无 法 往 核反应 堆 多 加 水 了 ， 还 是 不 
应 该 往 核 反应 堆 多 加 水 。 


我 谢谢 他 了 


我 很 喜欢 的 歧义 句 之 一 来 源 于 我 的 朋友 Kevin 的 博士 论文 献 词 : “ 致 我 
的 博士 生 导 师 ， 我 谢谢 他 了 。” 这 人 句 话 让 人 不 清楚 他 对 他 的 博士 导师 的 
态度 完 竟 是 感激 还 是 怨恨 。Kevin 本 人 声称 是 后 者 ， 所 以 我 就 问 他 ， 那 
为 什么 还 要 读 这 个 导师 的 博士 后 。 他 回答 道 : “为 了 复仇 。” 


出 现在 目 袋 语言 中 的 歧义 句 会 吕 得 非 币 请 稿 ， 但 是 出 现在 基于 计算 机 
的 语言 类 应 用 程序 中 的 层 义 就 会 带 来 很 多 问题 。 为 了 解释 或 者 翻译 一 
个 词组 ， 程 序 必 须 能 够 唯一 地 辨识 出 它 的 准确 含义 。 这 意味 着 ， 我 们 
必须 提供 没有 此 义 的 语法 ， 使 得 ANTLR 生 成 的 语法 分 析 器 能 够 以 单一 
方式 匹配 每 个 输入 词组 。 


迄今 为 止 ， 我 们 还 没有 深入 了 解 ANTLR 语 法 的 细节 ， 不 过 ， 接 下 来 我 
们 将 通过 一 些 有 卜 义 的 语法 来 阐明 歧义 性 的 含义 。 你 可 以 在 以 后 构建 
语法 并 直到 收 义 问题 的 时 候 再 来 回顾 本 市 。 


比如 一 些 语法 的 卜 义 古 非常 明显 的 : 


stat: ID '=' expr ';' // 匹配 一 个 赋值 语句 ~ 
| ID '=' expr ';' // 糟糕 ! 重复 了 前 一 个 备 选 分 支 ! 
expr: INT ; 


( 注 : 原文 为 match an assignment; can matchef () ; ”， 我 认为 后 半 句 
位 置 有 误 ， 应 移 至 下 一 段 代码 处 。 译 者 注 ) 


大 多 数 情况 下 ， 卜 义 的 表现 更 为 微妙 。 在 下 面 的 语法 中 ，stat 规 则 包 合 
两 个 备 选 分 文 ， 二 者 都 可 以 匹配 一 个 函数 调用 语句 。 


stat: expr ';' // 表达 式 语句 ， 也 可 以 匹配 "f();" 
| ID “( ')' ';' // 函数 调用 语句 

expr: ID '(" ')' 
| INT 


下 面 的 图 显示 了 stat 规 则 对 输入 文本 “f () ; ”的 两 种 不 同 的 解释 : 


fU; “作为 表达 式 f0); ”作为 函数 调用 


stat stat 
] 人 AN pn 
expr ; f ( ).; 
pa 
f () 


左边 的 语法 分 析 树 展示 的 是 f () 匹配 expr 规 则 的 情况 ， 右 边 的 语法 分 
析 树 展示 的 是 f () 匹配 stat 规 则 的 第 二 个 备 选 分 文 的 情况 。 由 于 大 多 数 
语言 的 设计 者 都 倾 同 于 将 语法 设计 成 无 收 义 的 ， 一 个 歧义 性 语法 通 般 
被 认为 是 程序 设计 上 的 pug。 我 们 需要 重新 组 织 语法 ， 使 得 对 于 每 个 输 
入 的 词组 ， 语 法 分 析 亏 都 能够 选择 唯一 匹配 的 备 选 分 文 。 如 有 果 语 法 分 
析 器 检测 到 该 词组 存在 卜 义 ， 它 束 必 须 在 多 个 备 选 分 文中 做 出 选择 。 
ANTLR 解 决 卜 义 问题 的 方法 是 :选择 所 有 匹配 的 备 选 分 文中 的 第 一 
条 。 在 上 面 的 例子 中 ，ANTLR 将 会 选择 左边 的 语法 分 析 树 作为 对 输入 
文本 中 () ; ”的 语义 解释 。 


上 收 义 问题 在 词法 分 析 絮 和 语法 分 析 莫 中 部 会 改 生 ，ANTLR 的 解决 方案 
使 得 对 规则 的 解析 能 够 正常 进行 。 在 词法 分 析 絮 中 ，ANTLR 人 解决 层 义 
问题 的 方法 是 : 匹配 在 语法 定义 中 最 靠 前 的 那 条 词法 规则 。 我 们 通过 


编程 语言 中 第 见 的 一 种 收 义 一 一 关键 了 字 和 标识 和 从 规则 的 冲突 一 一 来 说 
明 这 套 机 制 是 如 何 工作 的 。 关 键 子 begin 同 时 也 是 一 个 标识 符 ， 至 少 从 
词法 意义 上 来 说 是 这 样 的 。 所 以 词法 分 析 器 可 以 使 用 以 下 任 一 词法 规 
则 来 匹配 字符 序列 “b-e-g-i-n”: 


BEGIN : 'begin' ; // 匹配 b-e-g-i-n 序列 ,这 存在 歧义 
ID : [a-z]+ ;  // 匹配 一 个 或 者 多 个 小 写字 母 


有 关 词 法 分 析 中 歧义 性 的 更 多 信息 ， 请 参阅 5.5 市 中 “匹配 标识 符 ” 部 
分 。 要 注意 的 是 ， 词 法 分 析 器 会 匹配 可 能 的 最 长 字符 串 来 生成 一 个 词 
法 符号 ， 这 意味 着 ， 输 入 文本 beginner 只 会 匹配 上 例 中 的 ID 这 条 词法 规 
则 。ANTLR 词 法 分 析 器 不 会 把 它 匹配 为 关键 字 BEGIN 后 跟着 标识 符 


Der ” 


有 了 时候， 一 门 语言 的 语法 本 喘 就 存在 收 义 ， 无 论 如 何 修 改 语法 也 不 能 
改变 这 一 点 。 例 如 ， 第 见 的 数学 表达 式 1+2*3 可 以 用 两 种 方式 解释 ， 一 
种 是 目 左 向 右 地 处 理 〈Smalltalk 束 是 这 么 做 的 ) ， 另 外 一 种 是 像 绝 大 多 
数 编程 语言 一 样 ， 按 照 优 先 级 来 处 理 。 我 们 将 在 5.4 市 中 学 习 如 何 隐 式 
地 指定 表达 式 中 的 运算 符 优 先 级 。 


经 典 的 C 语 言 同 我 们 展示 了 男 外 一 种 收 义 ， 我 们 可 以 通过 包 作 标识 符 定 
义 的 上 下 文 信息 来 解决 这 样 的 歧义 问题 。 例 如 ， 对 于 代码 片 

段 $; ”， 从 句法 角度 看 ， 它 像 是 一 个 表达 式 ， 但 是 实际 上 它 的 实际 
含义 ， 或 者 说 语义 ， 依 赖 于 i 是 一 个 类 型 还 是 一 个 变量 。 如 来 i 是 一 个 类 


型 的 名 字 ， 那 么 这 段 代 码 吏 不 是 一 个 表达 式 ， 而 是 一 个 指 癌 类 型 i 的 指 
针 变 量 j 的 声明 。 我 们 将 在 第 11 章 中 解决 这 样 的 歧义 问题 。 


语法 分 析 器 本身 仅 仅 验证 输入 语句 的 合法 性 并 建立 一 棵 语法 分 析 树 。 
这 是 一 项 非常 重要 的 工作 ， 接 下 来 ， 我 们 将 了 解 一 个 语言 类 应 用 程序 
如 何 使 用 语法 分 析 树 来 对 输入 文本 进行 语义 分 机 和 翻译 。 


2.4 使 用 语法 分 析 树 来 构建 语言 类 应 用 程序 


为 了 编写 一 个 语言 类 应 用 程序 ， 我 们 必须 对 每 个 输入 的 词组 或 者 子 词 
组 执行 一 些 适当 的 操作 。 进 行 这 项 工作 最 简单 的 方式 是 操作 语法 分 析 
器 目 动 生成 的 语法 分 析 树 。 这 种 方式 的 优点 在 于 ， 我 们 能 够 重 回 我 们 
所 熟悉 的 Java 领 域 。 这 样 ， 在 语言 类 应 用 程序 进一步 的 构建 过 程 中 ， 我 
们 就 不 需要 再 学 习 复 杂 的 ANTLR 语 法 了 。 


首先 ， 我 们 来 认识 一 ANTLR 在 识别 和 建立 语法 分 析 树 的 过 程 中 使 用 
的 数据 结构 和 类 名 。 熟 悉 这 些 数 据 结构 将 为 我 们 未 来 的 讨论 葛 定 基 
础 。 


前 已 述 及 ， 词 法 分 析 器 处 理 字 符 序列 并 将 生成 的 词法 符号 提供 给 语法 
分 析 器 ， 语 法 分 析 器 随即 根据 这 些 信息 来 检查 语法 的 正确 性 并 建造 出 
一 棵 语法 分 析 树 。 这 个 过 程 对 应 的 ANTLR 类 是 CharStream、Lexer、 


Token、Parser， 以 及 ParseTree。 连 接 词 法 分 析 器 和 语法 分 析 器 的 “ 管 


道 * 就 是 TokenStream。 图 2-2 展 示 了 这 些 类 型 的 对 象 在 内 存 中 的 交互 方 
式 O 


ANTLR 尽 可 能 多 地 使 用 共享 数据 结构 来 节约 内 存 。 如 图 2-2 所 示 ， 语 法 
分 析 树 中 的 叶子 节点 〈 词 法 符号 ) 仅仅 是 盛 放 词 法 符号 流 中 的 词法 符 
号 的 容器 。 每 个 词法 符号 都 记录 了 目 己 在 字符 序列 中 的 开始 位 置 和 绪 
束 位 置 ， 而 非 保存 子 字符 串 的 拷贝 。 其 中 ， 不 存在 空白 字符 对 应 的 词 
法 符号 (索引 为 2 和 4 的 字符 ) 的 原因 是 ， 我 们 假定 我 们 的 词法 分 析 器 
丢弃 空 日 字符 。 


阔 及 


图 2-2 中 也 显示 出 ，ParseTree 的 子 类 RuleNode 和 TerminalNode， 二 者 分 
别 是 子 树 的 根 节点 和 叶子 节点 。RuleNode 有 一 些 令 人 熟悉 的 方法 ， 例 
如 getChild () 和 getParent () ， 但是， 对 于 一 个 特定 的 语法 ， 
RuleNode 并 不 是 确定 不 变 的 。 为 了 更 好 地 文 持 对 特定 节点 的 元 素 的 访 
问 ，ANTLR 会 为 每 条 规则 生成 一 个 RuleNode 的 子 类 。 如 图 2-3 所 示 ， 在 
我 们 的 赋值 语句 的 例子 中 ， 子 树 根 节点 的 类 型 实际 上 是 StatContext、 
AssignContext 以 及 ExprContext 。 


----------------------------------、 


RuleNode 


, TerminalNode 


Sp = 
a a ead TokenStream 
| | \ \ 
| | \ \ 
SE 和 
111111111 CharStream 


索 5| 值 : 0 1 2 345678 


图 2-2 ”部 分 对 象 在 内 存 中 的 交互 方式 


StatContext 


stat 
J AssignContext 
assign E04 = 
yd J sp = ExprContext . 
| TerminalNode TerminalNode | TerminalNode 
100 
100 
TerminalNode 
a) 语法 分 析 树 b) 语法 分 析 树 中 各 节点 的 类 名 


图 2-3 ”语法 分 析 树 


因为 这 些 根 节点 包含 了 使 用 规则 识别 词组 过 程 中 的 全 部 信息 ， 它 们 被 
称 为 上 下 文 (context) 对 象 。 每 个 上 下 文 对 象 都 知道 自己 识别 出 的 词 
组 中 ， 开 始 和 结束 位 置 处 的 词法 符号 ， 同 时 提供 访问 该 词组 全 部 元 素 
的 途径 。 例 如 ，AssignContext 类 提供 了 方法 ID () 和 方法 expr () 来 访 
问 标识 符 节 点 和 代表 表达 式 的 子 树 。 


给 定 这 些 类 型 的 具体 实现 ， 我 们 可 以 手工 写 出 对 语法 分 析 树 进行 深度 
优先 志 历 的 代码 。 这 样 ， 在 访问 其 中 的 市 点 时 ， 我 们 可 以 进行 一 切 所 
需 的 操作 。 这 个 过 程 中 的 典型 操作 是 诸如 计算 结果 、 更 新 数据 结构 或 
者 产生 输出 一 类 的 事情 。 实 际 上 ， 我 们 可 以 利用 ANTLR 目 动 生 成 并 遍 
历 树 的 机 制 ， 而 不 需要 每 次 都 重复 编写 饥 历 树 的 代码 。 


2.5 语法 分 析 树 监听 器 和 访问 器 


ANTLR 的 运行 库 提 供 了 两 种 遍历 树 的 机 制 。 默 认 情 况 下 ，ANTLR 使 用 
内 建 的 遍历 器 访问 生成 的 语法 分 析 树 ， 并 为 每 个 遍历 时 可 能 触发 的 事 
件 生成 一 个 语法 分 析 树 监听 器 接口 (parse-tree listener interface) 。 监 听 
器 非常 类 似 于 XML 解析 器 生成 的 SAX 文 档 对 象 。SAX 监 听 器 接收 类 似 
startDocument () 和 endDocument () 的 事件 通知 。 一 个 监听 器 的 方法 
实际 上 就 是 回调 函数 ， 正 如 我 们 在 图 形 界面 程序 中 响应 复 选 框 点 击 事 
件 一 样 。 除 了 监听 器 的 方式 ， 我 们 还 将 介绍 另外 一 种 遍历 语法 分 析 树 
的 方式 : 访问 者 模式 (vistor pattern) 。 


1. 语 法 分 析 树 监听 亏 


为 了 将 遍历 树 时 触发 的 事件 转化 为 监听 器 的 调用 ，ANTLR 运 行 库 提 供 
了 ParseTree-Walker 类 。 我 们 可 以 目 行 实现 ParseTreeListener 接 口 ， 在 其 
中 填充 自己 的 逻辑 代码 〈 通 常 是 调用 程序 的 其 他 部 分 ) ， 从 而 构建 出 
我 们 目 己 的 语言 类 应 用 程序 。 


ANTLR 为 每 个 语法 文件 生成 一 个 ParseTreeListener 的 子 类 ， 在 该 类 中 ， 
语法 中 的 每 条 规则 都 有 对 应 的 enter 方 法 和 exit 方 法 。 例 如 ， 当 人 遍历 絮 访 
问 到 assign 规 则 对 应 的 和 点 时 ， 它 就 会 调用 enterAssign () 方法 ， 然 后 
将 对 应 的 语法 分 析 树 证 点 一 一 AssignContext 的 实例 一 一 当 作 参数 传 弟 
给 它 。 在 遍历 器 访问 了 assign 广 反 的 全 部 子 节 点 之 后 ， 它 会 调用 


exitAssign () 。 图 2-4 用 粗 虚 线 标识 了 ParseTreeWalker 对 语法 分 析 树 进 
行 深度 优先 瑶 历 的 过 程 。 
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图 2-4 ”ParseTreeWalker 对 语法 分 析 树 进行 深度 优先 遍历 的 过 程 


除 此 之 外 ， 图 2-4 中 还 标识 出 了 遍历 过 程 中 ParseTreeWalker 调 用 assign 规 
则 的 enter 和 exit 方 法 的 时 机 (其 中 未 显示 监听 器 其 他 方法 的 调用 ) 。 图 
2-5 显 示 了 在 我 们 的 赋值 语句 生成 的 语法 分 析 树 中 ，ParseTreeWalker 对 
监听 器 方法 的 完整 的 调用 顺序 。 
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图 2-5 ”ParseTreeWalker 调 用 序列 


enterStat(StatContext) -=------------ > 


enterAssign(AssignContext) ----- 二 也 
visitTerminal(TerminalNode) ~ ----- 二 
visitTerminal(TerminalNode)  ----- i 
enterExpr(ExprContext) ~ ---------- -> 
visitTerminal(TerminalNode) ~ ------ J 
exitExpr(ExprContext) 。 -----------: ! -» 
visitTerminal(TerminalNode) ~ ----- 十 二 
exitAssign(AssignContext) ~ ------- |- 
exitStat(StatContext)  ------------ + 


程序 的 
其 余部 分 


监听 器 机 制 的 优秀 之 处 在 于 ， 这 一 切 都 是 自动 进行 的 。 我 们 不 需要 编 


写 对 语法 分 析 树 的 遇 历 代码， 也 不 需要 让 我 们 的 监听 器 显 式 地 访问 子 


十 上 
万 点 。 


2. 语 法 分 析 树 访问 如 


有 时 候 ， 我 们 希望 控制 遍历 语法 分 析 树 的 过 程 ， 通 过 显 式 的 方法 调用 
来 访问 子 节点 。 在 命令 行 中 加 入 -visitor 选 项 可 以 指示 ANTLR 为 一 个 语 


法 生成 访问 器 接口 (visitor interface) 


， 语 法 中 的 每 条 规则 对 应 接口 中 


的 一 个 visit 方 法 。 图 2-6 是 使 用 第 见 的 访问 者 模式 对 我 们 的 语法 分 析 树 


进行 操作 的 过 程 。 
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图 2-6 使 用 常见 的 访问 者 模式 对 语法 分 析 树 进行 操作 的 过 程 


其 中 ， 粗 虚线 显示 了 对 语法 分 析 树 进行 深度 优先 让 历 的 过 程 。 细 虚线 
标示 出 访问 器 方法 的 调用 顺序 。 我 们 可 以 在 自己 的 程序 代码 中 实现 这 
个 访问 器 接口 ， 然 后 调用 visit () 方法 来 开始 对 语法 分 析 树 的 一 次 遍 
所。 


ParseTree tree = ..， ; // tree 是 语法 分 析 得 到 的 结果 
MyVisitor v = new MyVisitor(); 
VvV.visit(tree); 


ANTLR 内 部 为 访问 者 模式 提供 的 支持 代码 会 在 根 节 点 处 调用 visitStat 
() 方法 。 接 下 来 ，visitStat () 方法 的 实现 将 会 调用 visit () 方法 ， 
并 将 所 有 子 广 点 当 作 参数 传递 给 它 ， 从 而 继续 裔 历 的 过 程 。 或 者 ， 
visitMethod () 方法 可 以 显 式 调用 visitAssign () 方法 等 。 


ANTLR 会 捉 供 访问 需 搂 口 和 一 个 委 认 实现 类 ， 免 去 我 们 一 切 都 要 目 行 
实现 的 腰 烦 。 这 样 ， 我 们 就 可 以 专注 于 那些 我 们 感 兴趣 的 方法 ， 而 无 


须 获 盖 接 口中 的 方法 。 我 们 将 在 第 7 章 中 深入 介绍 访问 器 和 监听 器 。 


与 语法 分 析 相 关 的 术语 


本 章 介绍 了 很 多 重要 的 与 语言 识别 相关 的 术语 。 


语言 一 | 门 语言 是 一 个 有 效 语句 的 集合 。 语 句 由 词组 组 成 ， 词 组 由 了 于 
词组 组 成 ， 子 词组 又 由 更 小 的 子 词组 组 成 ， 依 此 类 推 。 


语法 语法 定义 了 语言 的 语义 规则 。 语 法 中 的 每 条 规则 定义 了 一 种 词 
组 结构 。 


语义 树 或 语法 分 析 树 ”代表 了 语句 的 结构 ， 其 中 的 每 个 子 树 的 根 节 后 
都 使 用 一 个 抽象 的 名 字 给 其 包含 的 元 素 命 名 。 即 子 树 的 根 市 点 对 应 了 
语法 规则 的 名 字 。 树 的 叶子 节点 是 语句 中 的 符号 或 者 词法 符号 。 


词法 符号 ”词法 符号 束 是 一 门 语言 的 基本 词汇 符号 ， 它 们 可 以 代表 像 
征 “ 标 识 符 ”" 这 样 的 一 类 符号 ， 也 可 以 代表 一 个 单一 的 运算 符 ， 或 者 代 
表 二 个 天 健 季 ， 


词法 分 析 器 或 者 词法 符号 生成 侨 ”将 输入 的 字符 序列 分 解 成 一 系列 词 

法 符号 。 一 个 词法 分 析 需 负责 分 析 词 法 。 

语法 分 析 器 ”语法 分 析 器 通过 检查 语句 的 结构 是 否 符合 语法 规则 的 定 
语言 中 


义 来 验证 该 语句 在 特定 语言 中 是否 合法 。 语 法 分 析 的 过 程 好 比 古 走 迷 


富 ， 通 过 比较 语句 中 和 地 板 上 的 单词 来 从 入 口 走 到 出 口 。ANTLR 能 够 
生成 被 称 为 ALL (*) 的 自 顶 向 下 的 语法 分 析 器 ，ALL (*) 是 指 它 可 
以 利用 剩余 的 所 有 输入 文本 来 进行 决策 。 目 顶 向 下 的 语法 分 析 器 以 结 
果 为 导向 ， 首 先 匹 配 最 粗 粒 度 的 规则 ， 这 样 的 规则 通常 命名 为 program 


或 者 inputFile 。 


递归 下 降 的 语法 分 析 器 “这 是 自 顶 向 下 的 语法 分 析 器 的 一 种 实现 ， 每 
条 规则 都 对 应 语法 分 析 器 中 的 一 个 画 数 。 


前 同 预 测 ” 语 法 分 析 占 使 用 前 癌 预 测 来 进行 决策 ， 具 体 方法 古 ， 将 输 
入 的 符号 与 每 个 备 选 分 文 的 起 始 符号 进行 比较 。 


迄今 为 目 ， 我 们 已 经 大 体 上 了 解 了 ANTLR 的 工作 原理 。 在 本 章 中 ， 我 
们 认识 了 从 字符 序列 到 语法 分 析 树 的 整个 流程 ， 学 习 了 ANTLR 运 行 库 
的 一 些 关 键 类 。 此 外 ， 我 们 还 简单 了 解 了 监听 万 和 访问 万 机 制 ， 它 们 
是 连接 语法 分 析 器 和 特定 程序 代码 的 桥梁 。 在 下 一 章 中 ， 我 们 将 通过 
一 个 实际 的 例子 来 使 大 家 加 深 对 上 述 概念 的 理解 。 


第 3 章 入 门 的 ANTLR 项 目 


作为 我 们 的 第 一 个 ANTLR 项 目 ， 我 们 会 构造 一 个 语法 ， 它 是 C 语 言 或 
其 继承 者 Java 语 法 的 一 个 很 小 的 子 集 。 有 具体 来 说 ， 我 们 将 识别 包 囊 在 花 
括号 或 者 散 套 的 花 括 号 中 的 一 些 整数 ， 像 是 {1，2，3} 和 {1，{2，3}， 


4} 这 样 。 这 样 的 结构 可 以 作为 int 数 组 或 者 C 语 言 中 的 结构 体 的 初始 化 语 
句 。 在 很 多 情况 下 ， 针 对 这 种 语法 的 语法 分 析 需 都 非常 有 用 。 例 如 ， 
我 们 可 以 用 它 来 构建 一 个 对 C 语 言 的 源 代码 进行 重 构 的 工具 ， 这 个 工具 
能 够 完成 这 样 的 工作 :如果 初始 化 语句 中 所 有 的 整数 值 都 能 用 一 个 字 
方 表 示 ， 那 么 将 该 整数 数组 转换 为 字 世 数组 。 我 们 也 可 以 用 这 个 语法 
分 析 屁 将 Java 的 short 数 组 转换 为 子 符 串 。 例 如 ， 我 们 可 以 将 short 值 当 作 
Unicode 字 符 ， 从 而 将 ; 


static short[] data = {1,2,3}; 


转换 为 等 价 的 字符 串 形 式 : 


static String data = "1U00011uU0002140003"; // Java 中 的 char 实际 上 是 unsigned short 


其 中 像 u0001 这 样 的 Unicode 字 符 标 记 使 用 四 个 十 六 进 制 数字 来 表示 一 


个 16 位 的 字符 。 实 际 上 ， 这 样 的 字符 殉 是 一 个 short 值 。 


我 们 这 样 做 的 原因 是 为 了 不 受 Java 的 .class 文 件 格式 的 限制 。Java 的 class 
文件 将 数组 的 初始 化 语句 存储 为 一 系列 显 式 的 数组 元 素 赋值 语句 ， 上 
面 的 初始 化 语句 等 价 为 data[0]=1; data[1]=2; data[2]=3; 。 这 限制 了 我 
们 能 够 使 用 这 种 方法 来 初始 化 的 数组 的 大 小 。 相 比 之 下 ，Java 的 class 文 
件 将 字符 串 存 储 为 连续 的 short 序 列 ， 从 而 不 受 上 述 约 束 限制 。 将 数组 
的 初始 化 语句 转换 为 字符 串 可 以 得 到 更 紧 恋 的 class 文 件 ， 避 免 了 Java 的 
对 初始 化 方法 的 长 度 限制 。 


通过 这 个 入 门 的 项 目 示 例 ， 你 将 会 学 到 如 下 内 容 : 一 些 ANTLR 语 法 的 

语义 元 素 定 义 、ANTLR 根 据 语 法 目 动 生 成 代码 的 机 制 、 如 何 将 目 动 生 

成 的 语法 分 析 器 和 Java 程 序 集成 ， 以 及 如 何 使 用 语法 分 析 树 监听 絮 编 写 
一 个 代码 翻译 工具 。 


3.1 ANTLR 工 具 、 运 行 库 以 及 自动 生成 的 代码 


在 开始 前 ， 我 们 先 浏 览 一 下 ANTLR 的 jar 包 中 的 内 容 。 在 ANTLR 的 jar 包 
中 存在 两 个 关键 部 分 : ANTLR 工 具 和 ANTLR 运 行 库 (运行 时 语法 分 
析 ) API。 通 常 ， 当 说 到 “对 一 个 语法 运行 ANTLR” 时 ， 我 们 指 的 是 运行 
ANTLR 工 具 ， 即 org.antlr.v4.Tool 类 来 生成 一 些 代码 (语法 分 析 器 和 词 
法 分 析 器 ) ， 它 们 能 够 识别 使 用 这 份 语法 代表 的 语言 所 写成 的 语句 。 
词法 分 析 器 将 输入 的 字符 流 分 解 为 词法 符号 序列 ， 然 后 将 它们 传递 给 
能 够 进行 语法 检查 的 语法 分 析 器 。 运 行 库 是 一 个 由 若干 类 和 方法 组 成 
的 库 ， 这 些 类 和 方法 是 自动 生成 的 代码 (如 Parser，Lexer 和 Token) 运 
行 所 必须 的 。 因 此 ， 我 们 完成 工作 的 一 般 步 又 是 ， 首先 我 们 对 一 个 语 
法 运行 ANTLR， 然 后 将 生成 的 代码 与 jar 包 中 的 运行 库 一 起 编译 ， 最 后 
将 编译 好 的 代码 和 运行 库 放 在 一 起 运行 。 


构建 一 个 语言 类 应 用 程序 的 第 一 步 是 创建 一 个 能 够 描述 这 种 语言 的 语 
法 ( 即 合法 语句 结构 的 集合 ) 的 语法 。 我 们 将 在 第 5 章 中 介绍 如 何 编写 
语法 ， 现 在 我 们 先 来 看 下 面 这 个 能 够 满足 我 们 需求 的 语法 。 


starter/Arraylnit.g4 

/** 语法 文件 通常 以 grammar 关键 字 开 头 
* ”这 是 一 个 名 为 ArrayInit 的 语法 ， 它 必须 和 文件 名 ArrayInit .g4 相 匹 配 
Ey 

grammar ArrayInit; 


/** 一 条 名 为 init 的 规则 ， 它 匹配 一 对 花 括 号 中 的 、 豆 号 分 隔 的 value */ 
init : 'f' value (',' Vvalue)* '}' ; // 必须 匹配 至 少 一 个 value 

/** 一 个 value 可 以 是 府 套 的 花 括 号 结构 ， 也 可 以 是 一 个 简单 的 整数 ， 即 INT 词法 符号 */ 
value : init 


| INT 


// 语法 分 析 器 的 规则 必须 以 小 写字 母 开 头 ， 词 法 分 析 器 的 规则 必须 用 大 写字 母 开 头 
INT : [0-9]+ ， // 定义 词法 符号 INT， 它 由 一 个 或 多 个 数字 组 成 
WS : [ \t\r\n]+ -> skip ; // 定义 词法 规则 “空白 符号 ”， 丢 弃 之 


请 将 语法 文件 ArrayInit.g4 放 入 一 个 单独 的 文件 来， 例如 /tmp/array ( 通 
过 复制 -粘贴 或 者 从 本 书 网 站 下 载 ) 。 然 后 我 们 对 它 运 行 ANTLR 工 具 。 


$ cd /tmp/array 
$ antLr4 ArrayInit.g4 # 使 用 antlr4 这 个 别名 命令 来 生成 语法 分 析 器 和 词法 分 析 器 


根据 语法 ArrayInitg4，ANTLR 目 动 生成 了 很 多 文件 ， 如 图 3-1 所 示 ， 正 
常情 况 下 这 些 文件 都 是 需要 我 们 手工 编写 的 。 


ArraylnitParser.java 


Arraylnit.g4 ArraylnitLexer.java 


grammar Arraylnit; 


init :value (', value)* '}'; Arraylnit.tokens 
value : init 
| [>@NTLr [> 


ArraylnitLexer.tokens 


INT : [0-9]+ ; 
WS :[\t\n]+ -> skip ; 


i 
ArraylnitListener.java 


ArraylnitBaseListener.java 


由 


图 3-1 根据 语法 ArrayInit.g4，ANTLR 生 成 的 文件 


目前 ， 我 们 仅仅 需要 大 致 了 解 这 个 过 程 ， 下 面 简 单 介绍 一 下 生成 的 文 
作 : 


1) ArrayInitParserjava: 该 文件 包含 一 个 语法 分 析 器 类 的 定义 ， 这 个 语 


法 分 析 屁 专门 用 来 识别 我 们 的 “数组 语言 ”的 语法 ArrayInit 。 


oo 


public class ArrayInitParser extends Parser { ... 


在 该 类 中 ， 每 条 规则 都 有 对 应 的 方法 ， 除 此 之 外 ， 还 有 一 些 其 他 的 辅 
助 代码 。 

2) ArrayInitLexerjava: ANTLR 能 够 目 动 识别 出 我 们 的 语法 中 的 文法 规 
则 和 词法 规则 。 这 个 文件 包 人 的 是 词法 分 析 恬 的 类 定义 ， 它 是 
ANTLR 通 过 分 析 词 法 规则 INT 和 WS， 以 及 语法 中 的 字面 值 {'、'，，， 


和 '}' 生 成 的 。 回 想 一 下 上 一 章 的 内 容 ， 词 法 分 析 器 的 作用 是 将 输入 字符 
序列 分 解 成 词汇 符号 。 它 形 如 : 


public class ArrayInitLexer extends Lexer { ... } 


3) ArrayInittokens: ANTLR 会 给 每 个 我 们 定义 的 词法 符号 指定 一 个 数 
字形 式 的 类 型 ， 然 后 将 它们 的 对 应 关系 存储 于 该 文件 中 。 有 时 ， 我 们 
需要 将 一 个 大 型 语法 切 分 为 多 个 更 小 的 语法 ， 在 这 种 情况 下 ， 这 个 文 
件 就 非常 有 用 了 “。 通 过 它 ，ANTLR 可 以 在 多 个 小 型 语法 间 同 步 全 部 的 


马 
词法 符号 类 型 。 更 多 内 容 请 参阅 4.1 节 中 的 “语法 导入 "部 分 。 


4) ArrayInitListenerjava，ArrayInitBaseListener.java: 默认 情况 下 ， 
ANTLR 和 后 成 的 语法 分 析 器 能 将 输入 文本 转换 为 一 棵 语法 分 析 树 。 在 遍 
历 语 法 分 析 树 时 ， 通 历 峰 能 够 触发 一 系列 “事件 ”〈 回 调 ) ， 并 通知 我 
们 提供 的 监听 器 对 象 。 ArrayInitListener 接 口 给 出 了 这 些 回调 方法 的 定 
义 ， 我 们 可 以 实现 它 来 完成 目 定 义 的 功能 。ArrayInitBaseListener 是 该 
接口 的 默认 实现 类 ， 为 其 中 的 每 个 方法 提供 了 一 个 空 实 现 。 
ArrayInitBaseListener 类 使 得 我 1 门 只 需要 履 盖 那些 我 们 感 兴 趣 的 回调 方 
法 〈 详 见 7.2 六 ) 。 通 过 指定 -visitor 命 令 行 参数 ，ANTLR 也 可 以 为 我 们 
生成 语法 分 析 树 的 访问 器 (参阅 7.5 节 “使 用 访问 器 遍历 语法 分 析 树 ”部 
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接 下 来 ， 我 们 将 使 用 监听 器 来 将 short 数 组 初始 化 语句 转换 为 字符 串 对 
象 ， 不 过 在 这 之 前 ， 我 们 首先 使 用 一 些 样 例 输入 来 验证 我 们 的 语法 分 
析 右 是 否 能 正常 进行 匹配 工作 。 


ANTLR 语 法 比 正 则 表达 式 功 能 更 强大 


熟悉 正则 表达 式 的 读者 可 能 会 产生 疑问 ， 使 用 ANTLR 来 解决 这 么 简单 
的 识别 问题 是 不 是 有 点 小 题 大 做 了 ? 实际 上 ， 由 于 般 套 的 花 括 号 结构 
的 存在 ， 正 则 表达 陈 无 法 识别 这 样 的 初始 化 语句 。 正 则 表达 式 没有 存 
储 的 概念 ， 它 们 无 法 记 住 之 前 匹配 过 的 输入 。 因 此 ， 它 们 不 能 将 左右 
花 括 号 正确 配对 。 我 们 将 在 5.3 节 “ 舱 套 模式 ”部 分 中 予以 详细 讨论 。 


3.2 测试 生成 的 语法 分 析 器 


对 语法 运行 ANTLR 之 后 ， 我 们 需要 编译 自动 生成 的 Java 源 代码 。 人 简单 
起 见 ， 我 们 在 工作 目录 /tmp/array 下 完成 所 有 的 编译 控 作 。 


$ cd /tmp/array 
$ javac *.java # 编译 ANTLR 自动 生成 的 代码 


如 果 编 译 器 产生 了 一 个 ClassNotFoundException 异 常 ， 说 明 你 可 能 没有 
正确 设置 Java 的 CLASSPATH 环 境 变量 。 在 类 UNIX 系 统 上 ， 你 需要 执行 
以 下 命令 (也 可 以 写 在 类 似 .bash_profile 的 启动 脚本 中 ) : 


$ export CLASSPATH=".:/usr/local/lib/antlr-4.0-complete.jar:s$CLASSPATH" 


我 们 使 用 第 1 章 提 到 的 grun 别 名 来 启动 TestRig， 执 行 对 语法 的 测试 。 下 
面 的 命令 告诉 我 们 如 何 将 词法 分 析 絮 生成 的 词法 符号 打印 出 来 。 


过 $ grun ArrayInit init -tokens 
> {99, 3, 451} 


> Eor 
《 [@0,0:0='{',<1>,1:0] 
[@1,1:2='99' ,<4>,1:1] 
[@2.33=" "<2>,113] 
[3 535="3' <4d>, 115] 
[@4,6:6=',',<2>,1:6] 


[@5,8:10='451' ,<4>,1:8] 
[66,11:11='} ,<3>,1:11] 
[@7, 13:12='<EOF>' ,<-1>,2:0] 


在 输入 要 测试 的 语句 {99，3，451} 之 后 ， 我 们 必须 手动 输入 一 个 EOF 。 


默认 情况 下 ，ANTLR 在 开始 处 理 前 会 加 载 全 部 的 输入 文本 〈 这 是 最 浓 
见 的 情况 ， 也 是 最 有 效率 的 处 理 方式 ) 。 


每 行 输出 代表 一 个 词法 符号 ， 其 中 包含 该 词法 符号 的 全 部 信息 。 例 
如 ，[@5，8: 10='451'"，<4>，1: 8] 表 明 它 是 第 5 个 词法 符号 (从 0 开始 
计数 ) ， 由 第 8 到 第 10 个 字符 组 成 (从 0 开始 计数 ， 包 含 第 8 和 第 10) ， 
包含 的 文本 是 451， 类 型 是 4 (INT) ,位 于 输入 文本 的 第 1 行 (从 1 开始 
计数 ) 第 8 个 字符 (从 0 开始 计数 ，tab 作 为 一 个 字符 ) 处 。 注 意 ， 输 出 
的 结果 中 不 包含 空格 和 换行 符 ， 这 是 因为 在 我 们 的 语法 中 ，WS 规 则 
的 “->skip” 指 令 将 它们 丢弃 了 。 


如 果 需 要 语法 分 析 器 关于 输入 文本 识别 过 程 的 更 多 信息 ， 我 们 可 以 使 


用 “-tree” 选 项 查看 语法 分 析 树 : 


今 $grun ArrayInit init -tree 
> {99, 3, 451} 
=》 Eo 

《 (init { (value 99) , (value 3) , (value 451) }) 
“-tree” 选 项 使 用 LISP 风 格 〈 根 节点 和 子 节 点 在 同一 行 显示 ) 打印 出 语法 
分 析 树 。 男 外 ， 我 们 也 可 以 使 用 “-gui” 选 项 生成 一 个 可 视 化 的 对 话 框 。 
我 们 试 着 用 这 个 选项 处 理 一 下 {1，{2，3}，4} 这 样 的 由 套 结构 。 

过 $ grun ArrayInit init -gui 


> {1,{2,3},4} 
仿 EoF 


图 3-2 就 是 弹出 的 包含 语法 分 析 树 的 对 话 框 。 


init 


{ value ， value ， Vvalue } 


init 4 


{ value ， value } 


图 3-2 包含 语法 分 析 树 的 示例 对 话 框 


用 卓然 语言 表述 ， 语 法 分 析 树 就 是 ,“ 输 入 的 是 一 个 由 一 对 伦 括号 包 夺 
的 三 个 值 组 成 的 初始 化 语句 ， 第 一 个 和 第 三 个 值 是 整数 1 和 4， 第 二 个 
值 也 是 一 个 初始 化 语句 ， 它 由 一 对 人 花 括 号 包 囊 的 两 个 值 组 成 ， 这 两 个 
值 是 整数 2 和 3”。 


这 些 内 部 节点 ， 即 initm 点 和 value 节 点 ， 非 党 通俗 易 贱 ， 因 为 它们 用 名 

字 标 识 出 了 复杂 的 输入 元 素 。 这 有 点 像 是 标识 英语 句子 中 的 动词 和 主 

语 。ANTLR 最 棒 的 部 分 在 于 ， 它 能 够 基于 我 们 的 语法 中 的 规则 名 自动 

创建 这 样 的 一 棵 语法 分 析 树 。 在 本 章 的 最 后 ， 我 们 会 使 用 ANTLR 内 置 

的 语法 分 析 树 遍历 器 触发 自 定义 的 回调 范 数 enterInit () 和 enterValue 
() ， 从 而 构建 出 一 个 满足 要 求 的 翻译 器 。 


现在 我 们 已 经 能 用 ANTLR 分 析 语 法 、 生 成 代码 ， 并 且 测 试 它们 了 ， 接 
下 来 我 们 要 思考 的 是 ， 如 何 从 男 外 一 个 Java 程 序 中 调用 生成 的 语法 分 析 


口 蝇 


器 。 
3.3 将 生成 的 语法 分 析 器 与 Java 程 序 集成 


在 语法 准备 束 绪 之 后 ， 我 们 就 可 以 将 ANTLR 目 动 生 成 的 代码 和 一 个 更 
大 的 程序 进行 集成 。 在 本 节 中 ， 我 们 将 会 使 用 一 个 简单 的 Java 示 例 程 序 
的 main () 方法 调用 我 们 的 “初始 化 语句 解析 器 ”， 并 打印 出 和 TestRig 
的 “-tree” 选 项 类 似 的 语法 分 析 树 。 下 面 钙 完 整 的 Test.java 程 序 ， 它 体现 
出 了 2.1 市 中 的 完整 的 识别 流程 。 


starter/Test.java 

// 导入 ANTLR 的 运行 库 

import org.antlr.v4.runtime.*; 
import org.antlr.v4.runtime.tree.*; 


public class Test { 
public static void main(String[] args) throws Exception { 
// 新 建 一 个 CharStream， 从 标准 输入 读 取 数据 
ANTLRInputStream input = new ANTLRInputStream(System.in); 


// 新 建 一 个 词法 分 析 器 ， 处 理 输入 的 CharStream 


ArrayInitLexer lexer = new ArrayInitLexer(input); 


// 新 建 一 个 词法 符号 的 缓冲 区 ， 用 于 存储 词法 分 析 器 将 生成 的 词法 符号 
CommonTokenstream tokens = new CommonTokenStream(Lexer) ; 


// 新 建 一 个 语法 分 析 器 ， 处 理 词法 符号 缓冲 区 中 的 内 容 
ArrayInitParser parser = new ArrayInitParser(tokens ) ; 


ParseTree tree = parser.init(); // 针对 init 规则 ， 开 始 语法 分 析 
System.out.println(tree.toStringTree(parser)); // 用 LISP 风格 打印 生成 的 树 


上 面 的 程序 使 用 了 很 多 ANTLR 运 行 库 的 类 ， 像 是 CommonTokenStream 
和 ParseTree， 我 们 将 在 4.1 广 中 深入 学 习 它 们 。 


下 面 是 编译 运行 Test 的 方式 : 


过 $ javac ArrayInit*.java Test.java 

今 $ java Test 

> {1, {2,3},4} 

= Eo 

《 (init { (value 1) , (value (init { (value 2) , (value 3) })) , (value 4) }) 


ANTLR 还 能 目 动 报告 语法 错误 ， 并 从 语法 错误 中 恢复 。 例 如 ， 如 采 我 
们 输入 一 个 缺失 最 后 的 右 花 括号 的 初始 化 语 林 ， 结 果 会 挟 下 面 这 样 : 


今 $ java Test 


{1,2 
=》 Eo 
《 line 2:0 missing '}' at '<EOF>' 
(init { (value 1) ,§ (value 2) <missing '}'>) 


现在 ， 我 们 已 经 知道 了 如 何 对 一 个 语法 运行 ANTLR 工 具 ， 以 及 如 何 将 
自动 生成 的 语法 分 析 器 和 一 个 微型 的 Java 程 序 集成 。 不 过 ， 一 个 仅仅 能 
够 检查 语法 正确 性 的 程序 并 没有 什么 亮点 ， 我 们 要 构建 的 是 一 个 能 够 
将 short 数 组 初始 化 语句 转换 为 String 对 象 的 翻译 右 。 


3.4 构建 一 个 语言 类 应 用 程序 


我 们 继续 完成 能 够 处 理 数组 初始 化 语句 的 示例 程序 ， 下 一 个 目标 是 能 
够 翻译 初始 化 语句 ， 而 不 仅仅 是 能 够 识别 它们 。 例 如 ， 我 们 想 要 将 Java 
中 ， 类 似 {99，3，451} 的 short 数 组 翻译 成 \u0063\u0003\u01c3"。 注 
意 ， 其 中 十 进 制 数 字 99 的 十 六 进 制 表 示 是 63。 


为 了 完成 这 项 工作 ， 程 序 必须 能 够 从 语法 分 析 树 中 提取 数据 。 最 简单 
的 方案 是 使 用 ANTLR 内 置 的 语法 分 析 树 直 历 器 进行 深度 优先 遍历 ， 然 
后 在 它 触 发 的 一 系列 回调 函数 中 进行 适当 的 操作 。 正 如 我 们 之 前 看 到 
的 那样 ，ANTLR 能 够 目 动 生成 一 个 监听 絮 接 口 和 一 个 默认 的 实现 类 。 
这 样 的 监听 器 非常 类 似 于 图 形 界面 程序 控件 上 的 回调 函数 (例如 ， 当 
一 个 按钮 被 按 下 时 ， 它 会 通知 我 们 ) 或 者 XML 解析 器 中 的 SAX 事 件 。 


我 们 如 果 想 要 通过 编写 程序 来 操纵 输入 的 数据 的 话 ， 只 需要 继承 
ArrayInitBaseListener 类 ， 然 后 履 盖 其 中 必要 有 的 方法 即 可 。 我 们 的 基本 
思想 是 ， 在 遍历 器 进行 语法 分 析 树 的 遍历 时 ， 令 每 个 监听 器 方法 翻译 
输入 数据 的 一 部 分 并 将 结果 打印 出 来 。 


监听 器 机 制 的 优雅 之 处 在 于 ， 我 们 不 需要 自己 编写 任何 遍历 语法 分 析 
树 的 代码 。 事 实 上 ， 我 们 甚至 都 不 知道 ANTLR 运 行 库 是 怎么 志 历 语法 
分 析 树 、 怎 么 调用 我 们 的 方法 的 。 我 们 只 知道 ， 在 语法 规则 对 应 的 语 
句 的 开始 和 结束 位 置 处 ， 我 们 的 监听 器 方法 可 以 得 到 通知 。 在 7.2 节 我 
们 会 看 到 ， 这 种 机 制 使 得 我 们 不 需要 了 解 太 多 ANTLR 的 知识 一 一 我 们 
回 到 了 自己 熟悉 的 领域 ， 即 写 普通 的 代码 而 不 是 处 理 语言 识别 问题 。 


一 个 进行 翻译 工作 的 项 目 意味 着 要 处 理 这 样 的 问题 : 如 何 将 输入 的 词 
法 符号 或 者 词组 翻译 成 输出 子 人 符 串 。 为 了 达到 这 个 目标 ， 最 好 先 从 手 
工 翻译 一 些 有 代表 性 的 样 例 入 手 ， 想 办 法 提取 出 通用 的 转换 逻辑 。 在 
下 例 中 ， 转 换 过 程 是 非常 直截了当 的 。 


short 数 组 { 99 ，3，451 } 
| \、 人 ~、 


String 形 式 : " \y0063  \u0003 \u01c3 " 


用 目 然 语言 解释 ， 翻 译 过 程 束 是 一 系列 “又 映射 为 Y” 的 过 程 : 


1) 将 { 翻 译 为 "。 


2) 将 } 翻 译 为" 。 


3) 将 每 个 整数 翻译 为 四 位 的 十 六 进 制 形式 ， 然 后 加 前 级 \u。 


为 此 ， 我 们 需要 编写 方法 ， 在 遇 到 对 应 的 输入 词法 符号 或 者 词组 的 时 
候 ， 打 印 出 转换 后 的 字符 串 。 内 置 的 语法 分 析 树 遇 历 着 会 在 各 种 词组 
的 开始 和 结束 位 置 触发 监听 此 的 回调 钞 数 。 下 面 是 莹 循 我 们 的 翻译 规 


则 的 一 个 监听 天 的 实现 类 。 


starter/ShortToUnicodeString.java 
/** 将 类 似 {1,2,3} 的 short 数组 初始 化 语句 翻译 为 "\u0001\u0002\u0003" 
public class hort lounieodeS rung extends ArrayInitBaseListener { 
/** 将 { 翻译 为 ' 人 
@Override 
public void enterInit(ArrayInitParser.InitContext ctx) { 
System.out.print('"'); 


} 


/** 将 } 翻译 为 "” 4*/ 

@Override 

public void exitInit(ArrayInitParser.InitContext ctx) { 
System.out.print('"'); 

} 

/** 将 每 个 整数 翻译 为 四 位 的 十 六 进 制 形式 ， 然 后 加 前 级 \ 

@Override 

public void enterValue(ArrayInitParser.ValueContext ctx) { 
// 假定 不 存在 说 套 结构 
int value = Integer.value0Of(ctx.INT().getText()); 
System.out.printf("\\u%04x", value); 
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WA 


我 们 不 需要 和 覆盖 每 个 enter/exit 方 法 ， 我 们 只 需要 履 盖 上 自己 需要 的 那些 。 
上 述 代码 中 唯一 令 我 们 不 那么 熟悉 的 一 个 表达 式 是 ctx.INT () ， 它 从 
上 下 文 对 象 中 获取 INT 词 法 符号 对 应 的 整数 值 ， 该 词法 符号 由 匹配 value 
规则 得 来 。 现 在 ， 和 列 下 的 事情 就 是 把 之 前 的 Test 类 扩展 成 一 个 翻译 程序 
Te 


starter/Translate.java 

// 导入 ANTLR 运行 库 

import org.antlr.v4.runtime,.*; 
import org.antlr.v4.runtime.tree.*; 


public class Translate { 

public static void main(String[] args) throws Exception { 
// 新 建 一 个 CharStream， 从 标准 输入 读 取 数 据 
ANTLRInputStream input = new ANTLRInputStream(System.in); 
// 新 建 一 个 词法 分 析 器 ， 处 理 输入 的 CharStream 
ArrayInitLexer lexer = new ArrayInitLexer(input); 
// 新 建 一 个 词法 符号 的 缓冲 区 ， 用 于 存储 词法 分 析 器 将 生成 的 词法 符号 
CommonTokenStream tokens = new CommonTokenStream(lexer); 
// 新 建 一 个 语法 分 析 器 ， 处 理 词 法 符号 缓冲 区 中 的 内 容 
ArrayInitParser parser = new ArrayInitParser(tokens); 
ParseTree tree = parser.init(); // 针对 init 规则 ， 开 始 语 法 分 析 


> // 新 建 一 个 通用 的 、 能 够 触发 回调 函数 的 语法 分 析 树 遍历 器 

> ParseTreeWalker walker = new ParseTreeWalker(); 

> // 遍历 语法 分 析 过 程 中 生成 的 语法 分 析 树 ， 触 发 回调 

> walker.walk(new ShortToUnicodeString(), tree); 
> System.out.printtn(); // 翻译 完成 后 ， 打 印 一 个 \n 


这 份 代码 和 之 前 代码 的 唯一 区 别 在 于 高 亮 标识 的 部 分 ， 它 新 建 了 一 个 
语法 分 析 树 遍历 器 ， 令 其 对 语法 分 析 器 生成 的 语法 分 析 树 进行 般 历 。 
在 换 历 巍 的 志 历 过 程 中 ， 它 触发 了 我 们 的 ShortToUnicodeString 监 听 器 
的 回调 函数 。 请 注意 : 限于 篇 幅 ， 为 了 使 读者 的 注意 力 更 加 集中 ， 在 


本 书 剩 下 的 章节 中 ， 通 稼 仅 给 出 代码 的 关键 部 分 而 非 完 整 代 码 。 此 
外 ， 你 还 可 以 从 本 书 的 网 站 上 获取 完整 的 代码 压缩 包 。 


最 后 ， 让 我 们 一 起 完成 这 个 翻译 器 ， 并 使 用 样 例 输入 来 测试 。 

> $ javac ArrayInit*.java TransLate.java 

过 $ java TransLate 

这 {99,，3，451} 

= EoF 

《 "\uQ0063\u0003\u01c3" 

一 切 顺 利 。 无 须 深 入 理解 语法 的 细 方 ， 我 们 就 完成 了 我 们 的 第 一 个 翻 
译 絮 。 我 们 所 做 的 一 切 不 过 是 实现 了 几 个 方法 ， 在 这 些 方法 中 打印 出 
对 输入 文本 的 适当 的 翻译 结 有 末 。 另 外 ， 我 们 可 以 通过 给 遍历 右 传 递 一 
个 不 同 的 监听 圳 以 实现 完全 不 同 的 输出 。 监 听 露 有效 地 将 语言 类 应 用 
程序 和 语法 进行 了 解 厢 ， 从 而 使 得 同一 个 语法 能 够 被 不 同 的 程序 复 
用 。 


下 一 章 ， 我 们 将 快速 学 习 ANTLR 语 法 的 编写 方法 ， 以 及 让 ANTLR 语 法 
如 此 强大 和 易 用 的 关键 特性 。 


第 4 章 快速 指南 


迄今 为 止 ， 我们 已 经 学 习 了 如 何 安 装 ANTLR， 也 知道 了 构建 语言 类 应 
用 程序 所 需 的 步骤 、 术 语 和 原材料 。 本 章 中， 我们 将 会 通过 几 个 功能 
强大 的 示例 程序 来 快速 上 手 ANTLR。 在 这 个 过 程 中 ， 我 们 可 能 会 省 略 


挥 一 些 细 玉 ， 所 以 如 条 你 不 明 所 以 的 话 ， 也 不 必 担 心 ， 我 们 的 目标 只 
征 让 你 知道 ， 使 用 ANTLR 可 以 做 什么 *。 具体 细 万 我 们 将 在 第 5 章 中 详细 
讲解 。 对 于 那些 有 过 ANTLR 早 期 版 本 使 用 经 验 的 开发 者 来 说 ， 本 章 是 
一 个 很 好 的 升级 指南 。 


本 章 分 为 四 个 主题 ， 分 别 展示 了 ANTLR 的 不 同 特性 。 在 阅读 本 章 时 ， 
最 好 下 载 本 书 的 样 例 代码 同步 学 习 。 这 样 ， 你 束 能 习惯 于 编写 语法 文 
件 和 构建 ANTLR 程 序 。 记 住 ， 近 布 本 章 的 代码 片段 并 不 是 完整 的 文 
件 ， 我 们 侧重 代码 的 关键 部 分 。 


在 第 一 个 主题 中 ， 我 们 会 分 析 一 个 简单 的 算术 表达 式 语 言 的 语法 。 我 
们 会 使 用 ANTLR 内 置 的 测试 工具 对 它 进 行 测试 ， 然 后 深入 学 习 在 3.3 节 
样 例 代码 中 所 介绍 的 语法 分 析 右 的 局 动 过 程 。 之 后 ， 我 们 将 会 研究 表 
达 式 语法 生成 的 包含 异常 节点 的 语法 分 析 树 。 (回想 一 下 ， 语 法 分 析 
树 记 录 了 语法 分 析 器 在 匹配 输入 词组 过 程 中 的 完整 信息 。) 对 于 非常 
庞大 的 语法 ， 我 们 将 会 学 习 如 何 使 用 语法 导入 (grammar import) 将 其 
切 分 为 更 容易 管理 的 小 块 。 最 后 ， 我 们 将 了 解 ANTLR 目 动 生成 的 语法 
分 析 帮 处 理 非 法 输入 的 机 制 。 


在 算术 表达 式 语 法 分 析 紫 之 后 ， 进 入 第 二 个 主题 ， 我 们 将 会 使 用 访问 
者 模式 构建 一 个 计算 器 ， 它 能 够 所 历 算术 表达 式 的 语法 分 析 树 并 计算 
结果 。ANTLR 语 法 分 析 右 能 够 目 动 生成 访问 右 接 口 和 空 的 实现 类 ， 让 
我 们 上 手 更 加 容易 。 


在 第 三 个 主题 中 ， 我 们 将 会 构建 一 个 翻译 器 ， 它 能 够 读 取 Java 类 定义 并 
把 它 翻译 成 一 个 仅 有 方法 声明 的 接口 。 我 们 通过 同样 由 ANTLR 目 动 生 
成 的 监听 融 机 制 完 成 这 项 工作 。 


在 第 四 个 主题 中 ， 我 们 将 会 学 习 如 何 将 动作 (action， 即 任意 代码 ) 直 
接 舱 入 语法 文件 。 大 多 数 情况 下 ， 我 们 部 是 通过 访问 右 和 监听 右 来 构 
建 语言 类 应 用 程序 的 ， 但 是 为 了 实现 极端 的 灵活 性 ，ANTLR 人 允许 直接 
将 自 定 义 的 程序 代码 舱 入 生成 的 语法 分 析 器 。 这 些 动作 是 任意 代码 ， 
在 语法 分 析 过 程 中 执行 ， 能 够 完成 收集 信息 或 者 生成 输出 之 类 的 事 

情 。 通 过 和 语义 判定 (semantic predicate， 即 内 般 的 布尔 表达 式 ) 协同 
工作 ， 我 们 甚至 可 以 令 部 分 语法 在 运行 时 消失 ! 例如 ， 在 Java 语 法 中 ， 
处 理 不 同 版 本 的 源 代 码 时 ， 我 们 可 能 需要 开局 或 者 关闭 enum 关 键 字 。 
如 东 没 有 语义 判定 功能 ， 我 们 束 必 须 编 写 两 个 版 本 的 语法 。 


在 最 后 一 个 主题 中 ， 我 们 将 目光 聚焦 于 词法 分 析 (词法 符号 ) 层面 上 
的 一 些 ANTLR 特 性 。 我 们 将 看 到 ANTLR 是 如 何 处 理 包含 不 止 一 种 语言 
的 输入 文件 的 。 之 后 ， 我 们 将 了 解 一 个 很 棒 的 类 TokenStreamRewriter， 
它 人 允许 我 们 修改 词法 符号 流 而 不 影响 原先 的 输入 流 。 最 后 ， 我 们 将 会 
回顾 第 一 个 主题 中 接口 生成 妖 的 例子 ， 学 习 ANTLR 如 何在 解析 Java 语 
言 时 忽略 输入 的 空 晶 字符 和 注释 ， 但 是 并 不 丢弃 它们 ， 而 是 留待 以 后 
处 理 。 


现在 开局 ANTLR 之 旅 ， 首 先 ， 我 们 要 了 解 组 成 ANTLR 语 法 的 基本 标 
记 。 请 确保 你 的 命令 行 已 经 为 antr4 和 grun 设 定 了 正确 的 别名 ， 详 见 1.2 


+ 


ee 
4.1 匹配 算术 表达 式 的 语言 


我 们 的 第 一 个 语法 用 于 构建 一 个 简单 的 计算 器 ， 其 对 算术 表达 式 的 处 
理 具有 十 分 重要 的 意义 ， 因 为 它们 太 和 常见 了 。 为 简单 起 见 ， 我 们 只 允 
许 基本 的 算术 操作 符 (加 减 乘除 ) 、 贺 括号、 整数 以 及 变量 出 现 。 我 
们 的 算术 表达 却 限 制 译 点 数 的 使 用 ， 只 允许 整数 出 现 。 


下 面 的 示例 包含 了 本 语言 的 全 部 特性 : 


tour/t.expr 
193 


用 上 自然 语言 来 说 ， 我 们 的 表达 式 语 言 组 成 的 程序 就 是 一 系列 语句 ， 每 
个 语句 都 由 换行 符 终 止 。 一 个 语句 可 以 是 一 个 表达 式 、 一 个 赋值 语句 
或 者 是 一 个 空 行 。 下 面 是 解析 这 样 的 赋值 语句 和 表达 式 的 ANTLR 语 


法 : 


tour/Expr.g4 
第 1 行 grammar Expr; 


- /** 起 始 规则 ， 语 法 分 析 的 起 点 。 */ 
= prog: sat 3 


= Stat: expr NEWLINE 


| ID '=' expr NEWLINE 
| NEWLINE 
10 
- expr: expr ('*'|'/') expr 
- | expr ('+'|'-') expr 
| INT 
- | ID 
15 | '(' expr ')' 
-ID : [a-zA-Z]+ ; // 匹配 标识 符 
-INT : [0-9]+; // 匹配 整 关 
20 NEWLINE: '\r'? '\n' ; // 告诉 语法 分 析 器 一 个 新 行 的 开始 〈 即 语句 终止 标志 ) 
-WS : [ \t]+ -> skip ; // 丢弃 空白 字符 


不 过 多 地 深究 细 记 ， 让 我 们 看 一 看 ANTLR 语 法 基本 标记 包含 哪些 元 
素 。 


语法 包含 一 系列 摘 述 语言 结构 的 规则 。 这 些 规则 既 包 括 类 似 stat 和 expr 
的 摘 述 语法 结构 的 规则 ， 也 包括 摘 述 标识 符 和 整数 之 类 的 词汇 符号 
(词法 符号 ) 的 规则 。 


语法 分 析 器 的 规则 以 小 写字 母 开 头 。 
词法 分 析 器 的 规则 以 大 写字 母 开 头 。 


-我们 使 用 | 来 分 隅 同一 个 语言 规则 的 者 干 备 选 分 文 ， 使 用 圆 括号 把 一 些 
符号 组 合成 子规 则 。 例 如 ， 子 规则 〈*#/) 匹配 一 个 乘法 符号 或 者 一 个 


除法 符号 。 


我 们 将 在 第 5 章 中 对 此 进行 详细 讨论 。 


ANTLR 4 的 最 重要 的 新 功能 之 一 就 是 ， 它 能 够 处 理 (大 部 分 情况 下 
的 ) 左 递 归 规 则 。 左 递归 规则 是 指 这 样 的 语言 规则 :在 某 个 备 选 分 支 
的 起 始 位 置 调用 了 自身 。 例 如 ， 在 上 述 语 法 中 ，expr 规 则 的 第 11 行 和 第 
12 行 的 备 选 分 文 在 左 侧 递归 调用 了 expr 规 则 。 使 用 这 种 方式 指定 算术 表 
达 式 远 比 传统 的 目 顶 向 下 的 语法 分 析 峰 策略 简单 。 在 传统 的 语法 分 析 
圳 策略 中 ， 我 们 需要 为 运算 符 的 每 种 优先 级 编写 一 条 规则 。 有 关 左 递 
归 消 除 功 能 的 更 多 信息 ， 请 参阅 5.4 廊 。 


词法 符号 定义 中 的 标记 和 正则 表达 式 的 元 字符 非常 相似 。 我 们 将 在 第 6 
章 中 介绍 更 多 词法 (词法 符号 ) 规则 。 现 在 ， 唯 一 不 寻常 的 地 方 在 于 
WS 词法 规则 后 面 的 “->skip” 操 a 作 。 它 古 一 条 指令 ， 告 诉 词法 分 析 屁 匹 
配 并 丢弃 空 日 字符 (每 个 输入 的 字符 部 必须 被 至 少 一 条 词法 规则 匹 

配 ) 。 通 过 使 用 正式 的 ANTLR 标 记 ， 而 非 嵌 入 一 段 代码 来 告诉 词法 分 


析 器 忽略 这 些 字 答 ， 我 们 整 能 避免 语法 和 某 种 特定 的 目标 语言 绑 定 。 


现在 我 们 可 以 和 Expr 语 法 一 起 开始 一 段 恰 快 的 旅程 了 。 复 制 / 精 贴 上 面 
的 tour/Expr.g4 到 适当 的 位 置 。 测 斌 语法 最 简单 的 方式 是 使 用 内 置 的 
TestRig， 我 们 可 以 通过 grun 别 名 来 使 用 它 。 例 如 ， 下 面 是 在 类 UNIX 系 
统 的 命令 行 中 的 构建 和 测试 过 程 : 


$ antLr4 Expr.g4 
$ ls Expr*.java 


ExprBaseListener.java “ExprListener.java 

ExprLexer. java ExprParser.java 

$ javac Expr*.java 

$ grun Expr prog -gui t.expr # 启动 org.antlr.v4.runtime.misc.TestRig 


由 于 我 们 添加 了 “-gui” 选 项 ， 测 试 组 件 弹出 了 一 个 展示 语法 分 析 树 的 窗 
口 ， 如 图 4-1 所 示 。 


图 4-1 显示 语法 分 析 树 的 窗口 


语法 分 析 树 类 似 于 我 们 的 语法 分 析 器 在 识别 输入 文本 时 的 函数 调用 树 
(ANTLR 为 每 条 规则 生成 一 个 函数 ) 。 


使 用 测试 组 件 开 发 和 测试 语法 是 一 种 不 错 的 方法 ， 不 过 最 终 ， 我 们 需 
要 把 ANTLR 为 我 们 上 自动 生成 的 语法 分 析 器 集成 到 程序 中 。 


下 面 的 main 程 序 展示 了 一 些 必要 的 代码 ， 这 些 代 码 首 先 新 建 出 所 需 的 
所 有 对 象 ， 然 后 针对 prog 规 则 局 动 我 们 的 “表达 式 语言 ”语法 分 析 髓 。 


tour/ExprJoyRide.java 
第 1 行 Import org.antlr.v4.runtime,.*; 
- import org.antlr.v4.runtime.tree.*; 
- import java.io.FileInputStream; 
- import java.io.InputStream; 
5 public class ExprJoyRide { 
public static void main(String[] args) throws Exception { 
String inputFile = null; 
if ( args.length>0 ) inputFile = args[0]; 
InputStream is = System.in; 
10 if ( inputFile!=null ) is = new FileInputStream(inputFile); 
ANTLRInputStream input = new ANTLRInputStream(is); 
ExprLexer lexer = new ExprLexer(input); 
CommonTokenStream tokens = new CommonTokenStream(lexer); 
- ExprParser parser = new ExprParser(tokens); 
15 ParseTree tree = parser.prog(); // 从 prog 规则 开始 进行 语法 分 析 
- System.out,printLn(tree.to9tringTree(parser)); // 以 文本 形式 打印 树 


第 7 行 到 第 11 行 为 词法 分 析 嚣 新建 了 一 个 处 理 字符 的 输入 流 。 第 12 行 到 
第 14 行 新 建 了 词法 分 析 器 和 语法 分 析 絮 对 象 ， 以 及 一 个 架设 在 二 者 之 
间 的 词法 符号 流 “ 管 道 ”。 第 15 行 真正 启动 了 语法 分 析 器 ， 开 始 了 解析 
过 程 (调用 一 条 规则 对 应 的 方法 就 等 于 指定 该 规则 开始 语法 分 析 ， 我 
们 可 以 调用 任何 我 们 所 希望 的 规则 方法 ) 。 最 后 ， 第 16 行 用 文本 形式 
将 该 规则 方法 prog () 返回 的 语法 分 析 树 打印 出 来 。 


下 面 是 构建 测试 程序 以 及 对 输入 的 Lexpr 文 件 运 行 该 程序 的 详细 步 又: 


今 $ javac ExprJoyRide.java Expr*.java 
今 $ java ExprJoyRide t.expr 
《 (prog 
(Stat (expr 193) \n) 
(stat a = (expr 5) \n) 
(stat b = (expr 6) \n) 
(Stat (expr (expr a) + (expr (expr b) * (expr 2))) \n) 
(stat (expr (expr ( (expr (expr 1) + (expr 2)) )) * (expr 3)) \n) 


以 这 样 的 文本 形式 ( 稍 加 整理 ) 展示 的 语法 分 析 树 显得 不 那么 直观 ， 
不 过 对 于 功能 测试 来 讽 ， 它 还 是 非常 有 用 的 。 我 们 这 个 “表达 式 语 
法 ”只 有 密室 数 行 ， 但 是 实际 中 的 语法 可 能 多 达成 和 干 上 万 行 。 在 下 一 廊 
中 ， 我 们 将 会 学 习 如 何 使 那样 的 大 型 语法 维持 在 可 探 范 围 内 。 


1 语 恋 导入 


一 个 好 主意 是 ， 将 非常 大 的 语法 拆 分 成 逻辑 单元 ， 正 如 我 们 在 软件 开 
发 中 所 做 的 那样 。 拆 分 的 方法 之 一 是 将 语法 分 为 两 部 分 : 语法 分 析 响 
的 语法 和 词法 分 析 亏 的 语法 。 这 是 一 个 不 销 的 方案 ， 因 为 在 不 同 语言 
的 词法 规则 中 ， 有 相当 大 的 一 部 分 是 重复 的 。 例 如 ， 不 同 语言 的 标识 
从 和 数字 定义 通 弟 是 相同 的 。 将 词法 规则 重 构 并 抽取 出 来 成 为 一 个 “ 模 
块 ”意味 着 我 们 可 以 将 它 应 用 于 不 同 的 语法 分 析 器 。 下 面 的 这 个 词法 语 
法 包含 了 上 面 的 “表达 式 语 法 ”中 所 有 的 词法 规则 。 


tour/CommonLexerRules.g4 
Lexer grammar CommonLexerRules; // 注意 区 别 , 是 "lexer grammar" 


ID : [a-zA-Z]+ ; // 匹配 标识 符 

INT : [0-9]+ ; // 匹配 整 

NEWLINE: '\r'? '\n' ; // 告诉 语法 分 析 器 一 个 新 行 的 开始 ( 即 语句 终止 标志 ) 
WS : [ \t]+ -> skip ; // 丢弃 空白 字符 


现在 我 们 可 以 将 原先 的 语法 中 的 那些 词法 规则 蕉 换 为 一 个 import 语 句 
了 了。 


tour/LibExpr.g4 

grammar LibExpr; // 为 了 和 原先 的 语法 区 分 开 ， 进 行 了 重 命 名 
import CommonLexerRules; // 引入 CommonLexerRules.g4 中 的 全 部 规则 
/** 起 始 规则 ， 语 法 分 析 的 起 点 . A 


prog: stat+ ; 


stat: expr NEWLINE 


| ID '=' expr NEWLINE 
| NEWLINE 
expr: expr ('*'|'/') expr 
| expr ('+'|'-') expr 
| INT 
| ID 
| 让 expr A 


构建 和 测试 过 程 与 重 构 之 前 相同 。 我 们 不 需要 对 被 导入 的 语法 运行 
ANTLR。 


党 $$ antLr4 LibExpr.g4 # 将 会 自动 获取 CommonLexerRules.g4 
过 $ 1s Lib*.java 

《 LibExprBaseListener.java LibExprListener.java 

LibExprLexer.java LibExprParser.java 

> $ javac LibExpr*.java 

过 $ grun LibExpr prog -tree 

过 3+4 

3 Eo 

《 (prog (stat (expr (expr 3) + (expr 4)) \n)) 


到 现在 为 止 ， 我 们 假设 输入 都 古 合 法 的 ， 但 是 错误 处 理 是 几乎 所 有 语 
言 类 应 用 程序 必 不 可 少 的 部 分 。 我 们 接 下 来 将 会 看 到 ，ANTLR 如 何 处 
理 有 错误 的 输入 。 


2. 处 理 有 错误 的 输入 


ANTLR 语 法 分 析 紫 能 够 目 动 报告 语法 错误 并 从 错误 中 恢复 。 例 如 ， 如 
果 我 们 的 表达 式 少 了 一 个 右 括号 ， 语 法 分 析 器 将 会 自动 输出 一 个 错误 


壹 局 。 


日 作 , 


过 $ java ExprJoyRide 


过 (1+2 
= 3 
=》 Eo 
《 line 1:4 mismatched input '\n' expecting {')', ‘+', '*', '-', '/'} 
(prog 
(stat (expr ( (expr (expr 1) + (expr 2)) <missing ')'>) \n) 


(stat (expr 3) \n) 
) 


同样 值得 重视 的 是 ， 语 法 分 析 右 从 错误 中 恢复 ， 并 且 正 确 地 完成 了 第 
二 个 表达 式 的 匹配 (表达 式 3) 。 


如 果 在 grun 命 令 中 使 用 了 “-gui” 选 项 ， 语 法 分 析 树 对 话 框 会 将 错误 节点 
自动 标 红 ， 如 图 4-2 所 示 。 


过 $ grun LibExpr prog -gui 
这 (1+2 

念 34*69 

今 Eor 


图 4-2 ”被 目 动 标 红 的 语法 分 析 树 对 话 杠 


注意 ANTLR 成 功 地 从 第 一 个 表达 式 的 错误 中 恢复 ， 正 确 地 匹配 了 第 二 
个 表达 式 * 


ANTLR 的 错误 处 理 机 制 有 很 高 的 灵活 性 。 我 们 可 以 修改 输出 的 错误 信 
思 ， 捕 获 识别 过 程 中 的 异 钊 ， 甚 至 改变 基本 的 异 利 处 理 策 略 。 我 们 将 
在 第 9 章 中 涉及 这 些 内 容 。 


以 上 束 是 有 关 语 法 和 语法 分 析 的 快速 而 奇妙 的 旅程 。 我 们 看 到 了 一 个 
简单 的 “表达 式 语法 ”， 以 及 使 用 内 置 的 测试 组 件 和 main 示 例 程序 开始 
语法 分 析 过 程 的 方法 。 我 们 也 看 到 了 语法 分 析 树 的 文本 形式 和 可 视 化 
形式 的 展示 ， 了 解 了 我 们 的 语法 古 如 何 匹 配 输 入 文本 的 。import 语 句 赋 
予 我 们 编写 模块 化 语法 的 能 力 。 接 下 来 ， 让 我 们 更 进一步 ， 不 仅 能 够 
识别 语言 ， 还 能 完成 解析 表达 式 的 工作 ， 即 计算 表达 式 的 值 。 


4.2 利用 访问 器 构建 一 个 计算 器 


为 了 能 让 上 一 市 中 的 算术 表达 式 语法 分 析 紫 完成 计算 结 来 的 工作 ,我 
们 需要 写 一 些 Java 代 码 。ANTLR 4 推荐 使 用 语法 分 析 树 访问 器 和 其 他 的 
所 历 姻 来 实现 语言 类 应 用 程序 ， 从 而 保持 语法 本 身 的 整洁 。 本 市 中 ， 

我 们 会 使 用 广为人知 的 访问 者 模式 来 实现 我 们 的 小 计算 右 。 为 了 位 化 
我 们 的 工作 ，ANTLR 目 动 生 成 了 一 个 访问 夯 接 口 和 一 个 空 的 实现 类 。 


在 开始 之 前 ， 我 们 需要 先 对 语法 做 少量 的 修改 。 首 先 ， 我 们 需要 给 备 
选 分 文 加 上 标签 《这 些 标签 可 以 是 任意 标识 符 ， 只 要 它们 不 与 规则 名 


冲突 ) 。 如 果 备 选 分 文 上 面 没有 标签 ，ANTLR 就 只 为 每 条 规则 生成 一 
个 方法 〈 第 7 章 使 用 了 一 个 相似 的 语法 对 访问 器 机 制 进行 了 详细 讲 

解 ) 。 在 本 例 中 ， 我 们 希望 每 个 备 选 分 文 都 有 不 同 的 访问 器 方法 ， 这 
样 我 们 就 可 以 对 每 种 输入 都 获得 一 个 不 同 的 “事件 ”。 在 我 们 的 新 语法 
LabeledExpr 中 ， 标 俭 以 # 开 头 ， 放 置 在 一 个 备 选 分 文 的 右 侧 。 


tour/LabeledExpr.g4 
stat: expr NEWLINE # printExpr 
| ID '=' expr NEWLINE # assign 
| NEWLINE # blank 
expr: expr op=('*'|'/') expr # MulDiv 
| expr op=('+'|'-') expr # AddSub 
| INT # int 
| ID # id 
| '(' expr ')' # parens 


授 下 来 ， 我 们 为 运算 人 符 这 样 词法 符号 定义 一 些 名 子 ， 这 样 ， 在 随后 的 
访问 器 中 ， 我 们 就 可 以 将 这 些 词法 符号 的 名 字 当 作 Java 常 量 来 引用 。 


tour/LabeledExpr.g4 

MUL : '*， ; // 为 上 述 语法 中 使 用 的 '*' 命名 
DIV : 2 

ADD : '+' ， 

SUB : 


在 完成 这 份 增强 版 的 语法 之 后 ， 我 们 束 可 以 开始 编码 实现 我 们 的 计算 
如 了 。 可 以 看 到 ，Calc.java 的 main 〈) 方法 几乎 和 之 前 的 
ExprJoyRide.java 完 全 一 样 。 差 别 之 一 是 ， 在 新 程序 中 ， 我 们 创建 的 词 


法 分 析 絮 对 象 和 语法 分 析 器 对 象 是 基于 语法 LabeledExpr 的 ， 而 非 
Expr ° 


tour/Calc.java 

LabeledExprLexer lexer = new LabeledExprLexer(input); 
CommonTokenStream tokens = new CommonTokenStream(lexer); 
LabeledExprParser parser = new LabeledExprParser(tokens); 
ParseTree tree = parser.prog(); // 开始 语法 分 析 


此 外 ， 我 们 还 去 权 了 以 文本 方式 打印 语法 分 析 树 的 语 铝 。 夯 外 一 个 郑 

别 征 我 们 实例 化 了 一 个 目 定 义 的 访问 夷 一 一 EvalVistor， 稍 后 我 们 将 详 
细 分 析 它 。 我 们 调用 visit () 方法 ， 开 始 遍历 prog () 方法 返回 的 语法 
分 析 树 。 


tour/Calc.java 
EvalVisitor eval = new EvalVisitor(); 
eval.visit(tree); 


现在 已 经 万 事 俱 备 了 ， 我 们 只 需要 实现 一 个 能 够 这 历 语 法 分 析 树 、 计 
算 并 返回 结 末 的 访问 紫 即 可 。 在 动手 之 前 ， 我 们 先 来 看 看 ANTLR 能 大 
我 们 目 动 生 成 哪些 东西 。 


今 $ antLr4 -no-Listener -visitor LabeledExpr.g4 


目 完 ，ANTLR 目 动 生成 了 一 个 访问 侨 接 口 ， 并 为 其 中 每 个 市 标签 的 备 
远 分 文生 网 了 一 小 廊 倒 * 


public interface LabeledExprVisitor<T> { 
T visitId(LabeLedExprParser.IdContext ctx); # 来 自 标签 id 
T visitAssign(LabeledExprParser.AssignContext ctx); # 来 自 标签 assign 
T visitMulDiv(LabeledExprParser.MulDivContext ctx); # 来 自 标签 MulDiv 


该 接口 使 用 了 Java 的 泛 型 定义 ， 参 数 化 的 类 型 是 visit 方 法 的 返回 值 的 类 
型 。 这 允许 我 们 的 实现 类 使 用 目 定 义 的 返回 值 类 型 ， 以 适应 不 同 的 场 


= 
全 
全 5 


其 次 ，ANTLR 生 成 了 该 访问 器 的 一 个 默认 实现 类 
LabeledExprBaseVisitor 供 我 们 使 用 。 考 虑 我 们 的 实际 情况 ， 表 达 式 的 计 
算 结果 都 是 整数 ， 因 此 我 们 的 EvalVistor 类 应 该 继承 
LabeledExprBaseVisitor<Integer> 类 。 为 最 终 完 成 计算 器 的 实现 ， 我 们 覆 
盖 了 访问 大 中 表达 式 和 赋值 语句 规则 对 应 的 方法 。 下 面 是 该 类 的 完整 
代码 。 


tour/EvalVisitor.java 
import java.util.HashMap; 
import java.util.Map; 


public class EvalVisitor extends LabeledExprBaseVisitor<Integer> { 
/** 计算 器 的 “内 存 ”， 存放 变 号 名 和 变 定 信和 的 对 应 关系 */ 
Map<String, Integer> memory = new HashMap<String, Integer>(); 


/+** TD "= @xpr NEWLINE */ 
@Override 
public Integer visitAssign(LabeLedExprParser.AssignContext ctx) { 
String id = ctx.ID().getText(); // id 在 '=' 的 左 侧 
int Value = visit(ctx.expr());  // 计算 右 侧 表达 式 的 值 
memory.put(id, value); // 将 这 个 映射 关系 存 悄 在 计算 器 的 “内 存 ” 中 
return value; 


/** expr NEWLINE */ 

@Override 

public Integer visitPrintExpr(LabeledExprParser.PrintExprContext ctx) { 
Integer value = visit(ctx.expr()); // 计算 expr 子 节点 的 值 


System.out.println(value); // 打印 结果 

return 0; // 上 面 已 经 直接 打印 出 了 结果 ， 因 此 这 里 返回 一 个 
此 假 值 即 可 
/** INT *f 
@Override 


public Integer visitInt(LabeledExprParser.IntContext ctx) { 
return Integer.value0Of(ctx.INT().getText{)); 


} 


A I 

@Override 

public Integer visitId(LabeledExprParser.IdContext ctx) 区 
String id = ctx.ID().getText(); 
if ( memory.containsKey(id) ) return memory.get(id); 
return 0; 


】} 


/+** expr op=('*'|'/') expr */ 
@Override 
public Integer visitMulDiv(LabeledExprParser,.MulDivContext ctx) { 
int left = Visit(ctx,expr(9) ); // 计算 左 侧 子 表达 式 的 值 
int right = visit(ctx.expr(1)); // 计算 右 侧 子 表达 式 的 值 
if ( ctx.op.getType() == LabeledExprParser.MUL ) return left * right; 
return left / right; // 如 果 不 是 乘法 . 就 一 定 是 除法 
} 


/** expr op=('+'|'-') expr */ 
@Override 
public Integer visitAddSub(LabeLedExprParser ,AddSubContext ctx) { 
int Left = visit(ctx.expr(0)); // 计算 左 仙子 表达 式 的 值 
int right = visit(ctx.expr(1)); // 计算 右 侧 子 表 达 式 的 值 
if ( ctx.op.getType() == LabeledExprParser.ADD ) return left + right; 


return Left - right; // 如 果 不 是 加 法 ， 就 一 定 是 减法 
} 


DB 2 

@Override 

public Integer visitParens(LabeledExprParser.ParensContext ctx) { 
return visit(ctx.expr()); // 返回 子 表达 式 的 值 

} 


下 面 是 以 上 程序 的 构建 和 测试 过 程 ， 使 用 t.expr 作 为 输入 : 


今 $ antLr4 -no-Listener -visitor LabeledExpr.g4  # 必须 加 -visitor 人 参数 111 

今 $ LSs LabeledExpr*.java 

《 LabeledExprBaseVisitor. java LabeledExprParser.java 
LabeledExprLexer. java LabeledExprVisitor.java 

今 $ javac Calc.java LabeledExpr*.java 

$cat t.expr 

《 193 


a+b*2 

(1+2)*3 
$java Calc t.expr 
《 193 

17 

9 


上 述 计 算 融 的 构建 过 程 透 露出 一 个 信息 : 我 们 不 需要 像 ANTLR 3 那 
样 ， 在 语法 文件 中 插入 Java 代 码 编写 的 动作 (action) 。 语 法 文件 独立 
于 程序 ， 具 有 编程 语言 中 立 性 。 访 问 器 机 制 也 使 得 一 切 语言 识别 之 外 
的 工作 在 我 们 所 熟悉 的 Java 领 域 进行 。 在 生成 的 所 需 的 语法 分 析 器 之 
后 ， 就 不 再 需要 同 ANTLR 语 法 标记 打交道 了 。 


在 继续 学 习 之 前 ， 你 可 能 需要 花费 一 点 工夫 ， 给 我 们 的 “表达 式 语 

言 ” 增 加 一 个 dlear 语 句 。 这 是 一 个 锻炼 你 的 好 机 会 ， 让 你 亲 目 动手 进行 
实际 操作 ， 而 又 无 须 深入 了 解 全 部 细节 。clear 命 令 会 将 计算 器 的 “内 
存 ” 清 空 ( 即 EvalVisitor 的 memory 成 员 ) ， 你 需要 在 stat 规 则 中 增加 一 个 
新 备 选 分 文 来 识别 它 。 使 用 #clear 来 给 这 个 新 的 备 选 分 文 加 上 标签 ， 然 
后 对 修改 后 的 语法 运行 ANTLR 命 令 ， 获 得 生成 的 访问 器 接口 。 然 后 ， 
为 了 能 在 接收 clear 命 令 的 时 候 作出 响应 ， 你 需要 实现 visitClear () 方 
法 。 最 后 ， 按 照 之 前 的 步骤 编译 并 运行 Calc。 


接 下 来 ， 让 我 们 换个 主题 ， 考 虑 一 下 进行 语言 的 翻译 ， 而 不 仅仅 是 对 
输入 进行 求 值 和 语义 解释 。 下 一 节 中 ， 我 们 将 会 使 用 男 外 一 种 机 制 
( 即 监听 器 来 构建 一 个 针对 Java 源 代码 的 翻译 程序 。 


4.3 利用 监听 器 构建 一 个 翻译 程序 


想象 一 下 ， 你 的 老板 让 你 编写 一 个 工具 ， 用 来 将 一 个 Java 类 中 的 全 部 方 
法 抽取 出 来 ， 生 成 一 个 接口 文件 。 如 果 你 是 个 新 手 ， 这 上 自然 会 引起 你 
的 式 慌 。 如 果 你 是 个 经 验 丰 富 的 Java 开 发 者 ， 你 可 能 会 使 用 Java 反 射 
API 或 者 javap 工 具 从 Java 类 中 提取 方法 的 签名 。 如 和 你 的 Java 功 力 深 
厚 ， 你 甚至 可 以 使 用 字 节 码 库 ASM 来 完成 工作 。 紧 接着 ， 你 的 老板 
说 : “对 了 ， 记 得 保留 方法 签名 中 的 空 日 字符 和 注释 。” 现 在 已 经 别 无 
选择 ， 我 们 必须 解析 Java 源 代码 了 。 例 如 ， 我 们 想 要 读 取 这 样 的 Java 源 
代码 : 


tour/Demo.java 

import java.util.List; 

import java.util.Map; 

public class Demo { 
void f(int x, String y) { } 
int[ ] g(/*no args*/) { return null; } 
List<Map<String, Integer>>[] h() { return null; } 


然后 使 用 其 中 的 方法 等 名 生成 一 个 接口 ， 保 留 其 中 的 全 部 空 日 字符 和 


注释 。 


tour/IDemo.java 

interface IDemo { 
void f(int x, String y); 
int[ ] g(/*no args*/); 
List<Map<String, Integer>>[] h(); 


信 不 信 由 你 ， 我 们 能 够 用 大 约 15 行 代码 解决 这 个 问题 。 这 些 代 码 十 通 
过 监 昕 Java 语 法 分 析 树 裔 历 絮 触发 的 “事件 ”来 完成 这 项 工作 的 。Java 语 
法 分 析 树 古 由 解析 Java 语 言 的 语法 分 析 絮 生成 的 ， 本 书 的 源 代码 中 提供 
了 Java 语 言 的 ANTLR 语 法 。 我 们 将 会 从 类 定义 中 提取 类 名 ， 用 它 来 命 
名 生成 的 接口 ， 然 后 从 类 的 方法 定义 中 获取 方法 签名 (返回 值 、 方 法 
和 名， 以 及 参数 列表 ) 。 在 8.3 市 中 有 一 个 相似 的 、 解 释 更 加 详细 的 例 
时 


在 Java 语 言语 法 和 我 们 的 监听 器 对 象 间 的 关键 “接口 ?是 JavaListener， 是 
ANTLR 为 我 们 自动 生成 的 一 个 类 。 它 定义 了 ANTLR 的 运行 库 中 的 
ParseTreeWalker 类 在 遍历 语法 分 析 树 时 能 够 触发 的 全 部 方法 。 在 本 例 
中 ， 我 们 需要 通过 履 盖 对 应 的 方法 ， 对 三 个 事件 作出 响应 : 遍历 器 进 


入 和 离开 类 定义 时 ， 以 及 忆 历 器 遇 到 方法 定义 时 。 下 面 古 生成 的 监听 
绥 接 口中 的 相关 方法 : 


public interface JavaListener extends ParseTreeListener { 
void enterClassDeclaration(JavaParser.ClassDeclarationContext ctx); 
void exitClassDeclaration(JavaParser.ClassDeclarationContext ctx); 
void enterMethodDeclaration(JavaParser.MethodDeclarationContext ctx); 


访问 各 机 制 和 监听 器 机 制 的 最 大 的 区 别 在 于 ， 监 听 右 的 方法 会 被 
ANTLR 提 供 的 饥 历 妖 对 象 目 动 调用 ， 而 在 访问 器 的 方法 中 ， 必 须 显 式 
调用 visit 方 法 来 访问 子 节 点 。 忘 记 调 用 visit () 的 后 果 就 是 对 应 的 子 树 
将 不 会 被 访问 。 为 实现 我 们 目 己 的 监听 器 ， 我 们 需要 知道 
classDeclaration 规 则 和 methodDeclaration 规 则 长 什么 样子 ， 因 为 监听 器 
方法 需要 获取 这 些 规则 匹配 的 词组 元 素 。Java.g4 是 一 个 完整 的 Java 语 
法 ， 这 里 只 截取 我 们 解决 问题 所 需 的 两 个 片段 。 


tour/Java.g4 
classDeclaration 


'class' Identifier typeParameters? ('extends' type)? 
('implements' typeList)? 
classBody 


tour/Java.g4 
methodDeclaration 


type Identifier formalParameters ('[' ']')* methodDeclarationRest 
| 'void' Identifier formaLParameters methodDeclarationRest 


我 们 无 需 实现 全 部 实现 接口 中 200 个 左右 的 方法 ， 因 为 ANTLR 为 我 们 生 
成 了 一 个 默认 的 名 为 JavaBaseListener 的 实现 。 我 们 的 “接口 提取 器 ”可 以 


继承 JavaBaseListener， 履 盖 我 们 所 感 兴趣 的 那些 方法 。 


我 们 的 基本 思想 是 ， 在 类 定义 的 起 始 位 置 打印 出 接口 定义 ， 然 后 在 类 
定义 的 结束 位 置 打 印 出 }。 在 遇 到 每 个 方法 定义 时 ， 我 们 将 会 抽取 出 它 
的 签名 。 下 面 是 完整 的 实现 代码 : 


tour/ExtractinterfaceListener.java 
import org.antlr.v4.runtime.TokenStream; 
import org.antlr.v4.runtime.misc.Interval; 


public class ExtractInterfaceListener extends JavaBaseListener { 

JavaParser parser; 

public ExtractInterfaceListener(JavaParser parser) {this.parser = parser;} 

/** 监听 对 类 定义 的 匹配 4 

GOverride 

public void enterClassDeclaration(JavaParser.ClassDeclarationContext ctx){ 
System.out.println("interface I"+ctx.Identifier()+" {"); 

} 

@Override 

public void exitClassDeclaration(JavaParser.ClassDeclarationContext ctx) { 
System.out.println("}"); 

} 

/** 监听 对 方法 定义 的 匹配 */ 

@Override 

public void enterMethodDeclaration( 
JavaParser.MethodDeclarationContext ctx 


) 


// 需要 从 语法 分 析 器 中 获取 词法 符号 

TokenStream tokens = parser.getTokenStream(); 

String type = "void"; 

if ( ctx.type()!=null ) { 

type = tokens.getText(ctx.type()); 

} 

String args = tokens.getText(ctx.formalParameters()); 

System.out.println("\t"+type+" "+ctx.Identifier()+args+";"); 
} 


我 们 需要 一 个 main 程 序 来 执行 上 面 的 代码 ， 其 内 容 和 本 章 之 前 的 那些 
main 程 序 几 乎 相同 。 在 我 们 启动 语法 分 析 器 后 ， 上 述 代码 束 会 税 执 


一 


人 


tour/ExtractlnterfaceTool.java 

JavaLexer lexer = new JavaLexer(input) ; 

CommonTokenStream tokens = new CommonTokenstream(Lexer ) ; 
JavaParser parser = new JavapParser(tokens ) ; 

ParseTree tree = parser.compilationUnit(); // 开始 语法 分 析 的 过 程 


ParseTreeWalker walker = new ParseTreeWalker(); // 新 建 一 个 标准 的 遍历 器 
ExtractInterfaceListener extractor = new ExtractInterfaceListener(parser) ; 
walker.walk(extractor，tree); // 使 用 监听 器 初始 化 对 语法 分 析 树 的 遍历 


记得 在 这 个 文件 的 开头 添加 “import org.antlr.v4.runtime.tree.*; ”。 当 谁 
备 好 Java.g4 和 我 们 的 ExtractInterfaceTool 中 的 main () 方法 之 后 ， 下 面 
是 完整 的 构建 和 测试 步骤 


人 今 $ antLr4 Java.g4 
$1ls Java*.java ExtractInterface*+ .java 
《 ExtractInterfaceListener.java JavaBaseListener.java JavaListener.java 
ExtractInterfaceTooL. java JavaLexer.java JavapParser.java 
> $ javac Java*.java Extract# .java 
今 $ java ExtractInterfaceTooL Demo.java 
《interface IDemo { 
Vold tT(int x; String y)s 
int[ ] g(/*no args*/); 
List<Map<String, Integer>>[] h(); 


我 们 实现 的 这 个 “接口 提取 器 ”功能 并 不 完整 ， 因 为 它 没 有 为 接口 定义 
添加 原 有 关中 的 import 语 句 ， 生 成 的 接口 可 能 引用 了 这 些 import 语 句 所 
对 应 的 类 型 ， 例 如 List。 作 为 练习 ， 请 你 试 着 处 理 一 下 import 语 句 。 这 
会 使 你 确信 ， 使 用 监听 絮 机 制 来 构建 这 种 提取 器 或 者 翻译 器 是 如 此 容 


易 。 我 们 甚至 不 需要 知道 importDeclaration 规 则 长 什么 样子 ， 因 为 在 
enterImportDeclaration () 方法 中 ， 只 需要 简单 地 打印 出 整 条 规则 匹配 


的 文本 即 可 : parser.getTokenStream () .getText (ctx) 。 


访问 器 和 监听 器 机 制 表 现 出 色 ， 它 们 使 语法 分 析 过 程 和 程序 本 身高 度 
分 离 。 尽 管 如 此 ， 有 些 时 候 ， 我 们 还 是 需要 额外 的 灵活 性 和 可 操控 
二 


4.4 定制 语法 分 析 过 程 


监听 融和 访问 器 机 制 是 一 个 创举 ， 这 使 得 目 定 义 的 程序 代码 和 语法 本 
身分 离开 来 ， 让 语法 更 具 可 读 性 ， 避 免 了 将 语法 和 特定 的 程序 混杂 在 
一 起 。 不 过 ,为 了 极 佳 的 灵活 性 和 可 操控 性 ， 我 们 可 以 直接 将 代码 片 
段 (动作 ) 嵌入 语法 中 。 这 些 动作 将 被 拷贝 到 ANTLR 上 自动 生成 的 递归 
下 降 语法 分 析 器 的 代码 中 。 本 节 中 ， 我 们 将 实现 一 个 简单 的 程序 ， 读 
取 大 干 行 数据 ， 然 后 将 指定 列 的 值 打 印 出 来 。 之 后 ， 我 们 将 会 看 到 如 
何 实现 特殊 的 动作 ， 叫 作 语义 判定 (semantic predicate) ， 它 能 够 动态 
地 开启 或 者 天 闭 部 分 语法 。 


1. 在 语法 中 帜 入 任意 动作 


如 果 不 想 承担 建立 语法 分 析 树 的 开销 ， 我 们 可 以 在 语法 分 析 的 过 程 中 
计算 并 打印 结 采 。 另 一 个 方案 是 ， 在 “和 示 达 了 式 语法 ?中 藤 入 一 些 代码 。 


这 种 方案 难度 更 高 ， 因 为 我 们 必须 知道 符 入 的 动作 对 语法 分 析 器 的 影 
啊 ， 以 及 在 哪里 放置 这 些 动作 。 


为 展示 如 何在 语法 中 骨 入 动作 ， 我 们 来 构建 一 个 能 够 打印 奉 干 行 数据 
中 的 指定 列 的 程序 。 我 一 直 想 完成 一 个 这 样 的 程序 ， 因 为 大 家 总 是 给 
我 发 一 些 文 本 文件 ， 我 想 要 从 中 提取 特定 的 列 ， 如 名 字 或 者 电子 邮箱 
地 址 。 例 如 ， 我 们 拥有 以 下 数据 : 


tour/t.rows 


parrt Terence Parr 101 
tombu Tom Burns 020 
bke Kevin Edgar 008 


列 之 间 是 用 tab 符 分 隅 的 ， 每 行 以 一 个 换行 符 结 尾 。 匹 配 这 样 的 输入 文 
件 的 语法 非 营 简单 : 


file : (row NL)+ ; // NL 是 换行 符 : '\r'? NANn' 

row : STUFF+ ; 

当 我 们 加 入 动作 时 ， 上 述 语法 就 会 变 得 混乱 。 我 们 需要 在 其 中 创建 一 
个 构造 器 ， 这 样 我 们 就 能 传 入 希望 提取 的 列 号 (从 1 开始 计数 ) ; 另 
外 ， 我 们 需要 在 row 规 则 的 “(...) +” 循 环 中 放置 一 些 动 作 。 


tour/Rows.g4 
grammar Rows ; 


@parser: :members { // 在 生成 的 RowsParser 中 添加 一 些 成 员 


ht :GOL: 
public RowsParser(TokenStream input，int coL) { // 自 定义 的 构造 器 
this(input); 


thisyeol 三 ol 


} 


file: (row NL)+ 


row 
locals [int i=0] 
| STUFF 
{ 
$i++; 
if ( $i == col ) System,.out.println($STUFF. text); 
} 
)+ 
TAB : '\It' -> skip ;  // 匹配 但 是 不 将 其 传递 给 语法 分 析 器 
NL : "Ir? "In',; // 匹配 并 将 其 传递 给 语法 分 析 器 
STUFF: ~[\t\r\n]+，; // 匹配 除 tab 符 和 换行 符 之 外 的 任何 字符 


STUFF 词 法 规则 匹配 除 tab 符 和 换行 符 之 外 的 任何 字符 ， 这 意味 着 数据 
中 可 以 包 侣 空格 。 


到 现在 为 止 ， 你 应 该 已 经 很 熟悉 一 个 适当 的 main 程 序 了 。 下 面 程 序 的 
唯一 不 同 之 处 在 于 ， 我 们 给 语法 分 析 融 的 目 定 义 构 造 郁 传 递 了 一 个 列 
， 并 且 告 诉 语 法 分 析 树 不 必 建 立 语法 分 析 树 。 


tour/Coljava 

RowsLexer Lexer = new RowsLexer(input); 

CommonTokenStream tokens = new CommonTokenStream( Lexer); 

int col = Integer.value0f(args[0]); 

RowsParser parser = new RowsParser(tokens，col); // 传递 列 号 作为 参数 
parser.setBuildParseTree(false); // 不 需要 浪费 时 间 建 立 语法 分 析 树 
parser.file(); // 开始 语法 分 析 


其 中 的 很 多 细 市 我 们 将 在 第 10 章 中 深入 探究 。 现 在 看 来 ， 动 作 就 是 花 
括号 包围 的 一 些 代 码 片段 。members 动 作 可 以 将 代码 注入 到 生成 的 语法 
分 析 右 类 中 ， 使 之 成 为 该 类 的 成 员 。 在 row 规 则 中 的 动作 访问 了 $i， 它 
是 一 个 使 用 locals 子 句 定 义 的 局 部 变量 。row 规 则 也 使 用 了 $STUFF.text 
来 获得 刚刚 匹配 的 STUFF 词 法 符号 中 包含 的 文本 。 


下 面 是 构建 和 测试 的 步骤 ， 每 列 进行 一 次 测试 。 


今 $ antLr4 -no-Listener Rows.g4 # 不 需要 生成 监听 器 
今 $ javac Rows*.java Col.java 
今 $ java CoL 1 < t.rows # 从 文件 tt. rows 中 读 取 并 打印 第 一 列 
《 parrt 
tombu 
bke 
过 $ java Col 2 < t.rows 
《 Terence Parr 
Tom Burns 
Kevin Edgar 
过 $ java Col 3 < t.rows 
《 101 
020 
008 


这 些 动作 在 语法 分 析 右 的 匹配 过 程 中 提取 并 打印 相关 的 值 ， 但 是 并 不 
改变 语法 分 析 过 程 本 身 。 除 此 之 外 ， 动 作 还 能 改变 语法 分 析 器 识别 输 
入 文本 的 过 程 。 在 下 一 节 中 ， 我 们 将 进一步 理解 内 般 动 作 的 概念 。 


2. 使 用 语义 判定 改变 语法 分 析 过 程 


我 们 会 在 第 11 章 中 通过 一 个 简单 的 例子 来 展示 语义 判定 的 威力 。 在 此 
之 前 ， 让 我 们 先 来 看 一 个 读 取 一 列 整 数 的 语法 。 它 机 了 一 个 小 把 戏 : 
其 中 的 一 部 分 整数 指定 了 接 下 来 的 多 少 个 整数 分 为 一 组 。 下 面 是 样 例 
输入 : 


tour/t.data 
29103123 


第 一 个 数字 2 告诉 我 们 ， 匹 配 接 下 来 的 两 个 数字 9 和 10。 紧 接 痢 的 数字 3 
告诉 我 们 匹配 接 下 来 的 三 个 数字 。 我 们 的 目标 是 创建 一 份 名 为 Data 的 
语法 ， 将 9 和 10 分 为 一 组 ， 然 后 1，2，3 分 为 一 组 ， 像 是 下 面 这 样 : 


今 $ antLr4 -no-Listener Data.g4 
今 $ javac Data*.java 


过 $ grun Data file -tree t.data 
《 (file (group 2 (sequence 9 10)) (group 3 (sequence 1 2 3))) 


如 图 4-3 所 示 的 语法 分 析 树 清楚 地 显示 了 匹配 到 的 分 组 。 


图 4-3 ”显示 了 匹配 到 的 分 组 的 语法 分 析 树 


下 面 将 看 到 的 Data 语 法 的 天 键 在 于 一 段 动 作 ， 它 的 值 吓 布尔 类 型 的 ， 
称 为 一 个 语义 判定 : {$i<=$n}? 。 它 的 值 在 匹配 到 n 个 输入 整数 之 前 保 
持 为 tue， 其 中 n 是 sequence 语 法 中 的 参数 。 当 语义 判定 的 值 为 false 时 ， 
对 应 的 备 选 分 支 束 从 语法 中 “消失 ”了 ， 因 此 ， 它 也 束 从 生成 的 语法 分 
析 句 中 “消失 ”了 。 在 本 例 中 ， 语 义 判 定 的 值 为 false 使 得 “(...) *” 循 环 
终止 ， 从 sequence 规 则 返回 。 


tour/Data.g4 
grammar Data; 


file : group+ ; 
group: INT sequence[$INT.int] ; 
sequence[int n] 


locals [int i = 1;] 
: ( {$i<=$n}? INT {$i++;} )* // 匹配 n 个 整 关 


INT : [0-9]+; // 匹配 整数 
WS : [ \t\n\r]+ -> Skip ; // 丢弃 所 有 的 空白 字符 


语法 分 析 絮 内 部 使 用 的 sequence 规 则 的 可 视 化 展示 大 致 如 图 4-4 所 示 。 


$i<=$ny? INT {$i++} 


sequence (Oo— No Te ) SS exit 


图 4-4 ”sequence 规 则 的 可 视 化 展示 


闻 刀 和 虚线 显示 语义 判定 会 前 挥 该 路 径 ， 让 语法 分 析 紫 只 璋 一 个 可 选 
路 径 : 退出 。 

大 多 数 情况 下 我 们 不 需要 如 此 精细 的 操作 ， 不 过 知道 有 这 样 一 件 处 理 
异 利 问题 的 利 天 总 是 好 的 。 

迄今 为 止 ， 我 们 的 侧重 点 都 是 语法 分 析 的 功能 ， 实 际 上 ， 在 词法 分 析 
的 层面 上 还 有 很 多 有 用 的 功能 等 春 我 们 去 发 现 ， 下 面 殉 让 我 们 一 起 来 
看 一 看 。 


4.5 神奇 的 词法 分 析 特 性 


ANTLR 有 三 个 与 词法 符号 有 关 非 营 棒 的 特性 ， 值 得 付 诸 笔 垩 。 诈 先 ， 

我 们 将 会 尝试 处 理 XML 这 样 的 具有 不 同 词法 结构 的 输入 格式 (标签 内 
外 不 同 ) 。 其 次 ， 我 们 将 会 学 习 通 过 修改 输入 的 词法 符号 流 ， 在 Java 类 
中 插入 一 个 字段 的 方法 。 它 将 会 展示 ， 如 何以 最 低 的 代价 来 生成 和 输 
入 内 容 相 似 的 输出 。 最 后 ， 我 们 将 会 看 到 ANTLR 语 法 分 析 胡 如何 忽 略 
空 日 字符 和 注释 ， 同 时 不 丢弃 它们 。 


1. 抓 岛 语 法 处 理 相 同文 件 中 的 不 同 格式 


迄今 为 止 ， 我 们 看 到 的 样 例 输入 文件 都 只 包含 一 种 语言 ， 但 是 事实 
上 ， 有 很 多 常见 的 文件 格式 包含 多 重 语言 。 例 如 ，Java 文 档 注 释 中 的 
@author 标 等 等 内 容 使 用 的 是 一 种 特殊 的 微型 语言 ;在 注释 之 外 的 一 切 
内 容 都 是 Java 代 码 。 类 似 StringTemplatet 和 Django 的 模板 引擎 也 存在 相 
似 的 问题 。 它 们 必须 将 模板 语言 表达 式 之 外 的 文本 按照 不 同 的 方式 进 
行 处 理 。 这 种 情况 通 利 称 为 孤岛 语法 。 


ANTLR 提 供 了 一 个 众所周知 的 词法 分 析 右 特性 ， 称 为 词法 分 析 模 式 
(exical mode) ， 使 我 们 能 够 方便 地 处 理 混杂 着 不 同 格式 数据 的 文 
件 。 它 的 基本 思想 是 ， 当 词法 分 析 器 看 到 一 些 特殊 的 “哨兵 ”字符 序列 
时 ， 执 行 不 同 模式 的 切换 。 


XML 是 个 很 好 的 例子 。 一 个 XML 解析 器 将 除了 标签 和 实体 转 义 (例如 
&pound; ) 之 外 的 东西 全 部 当 作 普通 文本 。 当 看 到 < 时 ， 词 法 分 析 器 会 
切换 到 “标签 内 部 ”模式 ， 当 看 到 > 或 者 /> 时 ， 它 就 切换 回 默 认 模 式 。 下 
面 的 语法 展示 了 XML 解析 器 的 工作 方式 。 我 们 将 在 第 12 章 中 对 它 进 

详细 讨论 。 


tour/XMLLexer.g4 
Lexer grammar XMLLexer; 


// 默认 的 模式 : 所 有 在 标签 之 外 的 东西 


OPEN 攻 - 坟 -> pushMode(INSIDE) ; 

COMMENT : < ,A*? > -> Skip ; 

EntityRef '&' [a-z]+ ';'; 

TEXT : ~('<'|'&')+,; // 匹配 任意 除 < 和 & 之 外 的 16 位 字符 
// -i 所 有 在 标签 之 内 的 东西 -------------------- 
mode INSIDE; 

CLOSE E E> -> popMode ; // 回 到 默认 模式 

SLASH CLOSE : '/>" -> popMode ，; 

EQUALS : ee 

STRING E 2 

SlashName FE '/' Name ; 

Name PF ALPHA (ALPHA|DIGIT)* ; 

3 NENFNA] -> Skip ; 

fragment 

ALPHA [a-ZA-Z] ; 

fragment 

DIGIT [0-9] ; 


下 面 是 该 语法 的 样 例 输入 : 


tour/t.xml 
<tools> 

<tool name="ANTLR">A parser generator</tool> 
</tools> 


下 面 是 构建 和 测试 的 步骤 : 


$antlr4 XMLLexer.g4 

今 $ javac XML*.java 

六 $ grun XML tokens -tokens 七 .XmlL 

《 [@0,0:0='<',<1>,1:0] 
[@1,1:5='tools',<10>,1:1] 
[@2,6:6='>' ,<5>,1:6] 
[@3,78="\NnNt" ;<4>,1:7] 
[@4,9:9='<',<1>,2:1] 
[@5,10:13='tool',<10>,2:2] 
[@6,15:18='name' ,<10>,2:7] 
[@7,19:19='="' ,<7>,2:11] 
[@8,20:26=' "ANTLR"' ,<8>,2:12] 
[@9,27:27='>' ,<5>,2:19] 
[@10,28:45='A parser generator',<4>,2:20] 
[@11,46:46='<' ,<1>,2:38] 
[@12,47:51='/tool' ,<9>,2:39] 
[@13,52:52='>' ,<5>,2:44] 
[@14,53:53='\n',<4>,2:45] 


[@15;54:54="<" ,<1>,3::0] 
[@16,55:60='/tools',<9>,3:1] 
[@17,61:61s'>" ,<5>,3:7] 
[@18,62:62='\n' ,<4>,3:8] 
[@19,63:62='<EOF>' ,<-1>,4:9] 


输出 的 每 一 行 代表 一 个 词法 符号 ， 它 包括 词法 符号 的 序号 、 起 始 和 终 
止 的 字符 位 置 、 内 容 文 本 ， 以 及 行 号 和 行内 位 置 。 这 些 内 容 让 我 们 了 
解 了 词法 分 析 紫 将 输入 文本 转换 为 词法 符号 的 过 程 。 

在 上 述 局 动 测试 组 件 的 命令 行 中 ， 使 用 的 参数 是 XML tokens， 在 正常 


情况 下 ， 这 里 应 该 是 一 个 语法 名 加 一 个 起 始 规则 名 。 如 果 需 要 令 测 试 
组 件 只 运行 词法 分 析 右 而 不 运行 语法 分 析 器 ， 我 们 可 以 指定 参数 为 语 


法 名 加 上 一 个 特殊 的 规则 名 tokens。 最 后 ， 我 们 使 用 了 一 个 参数 “- 
tokens” 命 令 测 试 组 件 打印 出 匹配 到 的 词法 符号 。 


知道 词法 符号 和 如 何 从 词法 分 析 亏 流 同 语法 分 析 融 的 是 非常 有 用 的 。 
例如 ， 一 些 与 翻译 相关 的 问题 实际 上 殉 是 对 输入 的 修改 。 有 时 候 ， 我 
们 可 以 通过 修改 原先 的 词法 符号 流 来 达到 目的 ， 而 不 需要 产生 新 的 输 
出 必 


2. 重 写 输入 流 


接 下 来 ， 让 我 们 构建 一 个 小 工具 ， 它 能 够 修改 Java 源 代码 并 插入 
java.io.Serializable 使 用 的 序列 化 版 本 标识 符 (serialVersionUID， 类 似 
Eclipse 的 自动 生成 功能 ) 。 我 们 不 希望 小 题 大 做 ， 仅 仅 为 了 这 样 一 件 
小 事 ( 读 取 输入 ， 稍 事 修改 后 输出 ) 就 把 ANTLR 根 据 Java 语 法 生成 的 
JavaListener 接 口中 的 方法 全 部 实现 。 更 简单 的 做 法 是 ， 在 原先 的 词法 
符号 流 中 插入 一 个 适当 的 代表 常量 字段 的 词法 符号 ， 然 后 打印 出 修改 
后 的 输入 流 。 对 症 下 药 ， 才 能 事半功倍 。 


我 们 的 main 程 序 和 4.3 市 中 的 ExtractInterfaceTool.java 非 常 相 似 ， 除 了 其 
中 的 一 部 分 ， 当 遍历 结束 后 ， 我 们 将 词法 符号 流 打 印 出 来 《箭头 
处 ) 。 


tour/InsertSeriallD.java 
ParseTreeWalker walker = new ParseTreeWalker(); // 新 建 一 个 标准 的 遍历 器 


InsertSeriallDListener extractor = new InsertSeriaLIDListener(tokens ) ; 
walker.walk(extractor，tree); // 使 用 监听 器 初始 化 对 语法 分 析 树 的 遍历 


// 打印 出 修改 后 的 词法 符号 流 
> System.out.println(extractor.rewriter.getText()); 


在 监听 器 的 实现 中 ， 我 们 需要 在 类 定义 的 起 始 位 置 触发 一 个 插入 操 
作 : 


tour/InsertSeriallDListener.java 
import org.antlr.v4.runtime.TokenStream; 
import org.antlr.v4.runtime.TokenStreamRewriter; 


public class InsertSeriaLIDListener extends JavaBaseListener { 
TokenStreamRewriter rewriter; 
public InsertSeriaLIDListener(TokenStream tokens) { 
rewriter = new TokenStreamRewriter(tokens); 


} 
@Override 
public void enterClassBody(JavaParser.ClassBodyContext ctx) { 
String field = "\n\ltpublic static final long serialVersionUID = 1L;"; 


rewriter.insertAfter(ctx.start, field); 


其 中 的 关键 之 处 在 于 ，TokenStreamRewriter 对 象 实际 上 修改 的 是 词法 符 
号 流 的 “视图 ”而 非 词法 符号 流 本 映 。 它 认为 所 有 对 修改 方法 的 调用 者 
只 是 一 个 “指令 ”， 然 后 将 这 些 修 改 放 入 一 个 队列 ， 在 未 来 词法 符号 流 
被 重新 泻 染 为 文本 时 ， 这 些 修 改 才 会 被 执行 。 在 每 次 我 们 调用 getText 
() 的 时 候 ，rewriter 对 象 都 会 执行 上 述 队 列 中 的 指令 


让 我 们 用 之 前 用 过 的 Demo.java 文 件 来 测试 上 面 的 代码 。 


> $ antLr4 Java.g4 
今 $ javac InsertSeriaLID#.java Java#r . java 
今 $ java InsertSeriaLID Demo.java 
《import java.util.List; 
import java.util.Map; 
public class Demo { 
public static final long serialVersionUID = 1L; 
void f(int x, String y) { } 
int[ ] g(/*no args*/) { return null; } 
List<Map<String, Integer>>[] h() { return null; } 


通过 寥寥 数 行 代码 ， 我 们 就 完成 了 对 Java 类 定义 的 修改 ， 同 时 又 不 影响 
我 们 插入 位 置 之 外 的 任何 代码 。 这 样 的 策略 在 源 代码 插 桩 或 者 重 构 等 
场合 下 是 非常 有 效 的 。TokenStreamRewriter 能 够 修改 词法 符号 流 ， 是 一 


个 非常 高 效 和 强大 的 工具 。 


在 结束 本 章 之 前 ， 还 有 一 些 非常 赞 的 内 容 要 介绍 。 这 部 分 内 容 包含 一 
个 很 常见 的 问题 ， 如 果 没 有 ANTLR 的 词法 符号 通道 机 制 ， 它 将 会 变 得 
非常 棘手 。 


3. 将 词法 符号 送 入 不 同 通 道 


之 前 我 们 看 到 ，Java 接 口 抽取 器 魔术 般 地 保留 了 方法 签名 中 的 空 日 字符 
和 注释 ， 如 下 所 示 : 


int[ ] g(/*no args*/) { return null; } 


使 用 传统 方法 很 难 达 到 这 个 目的 。 对 于 大 多 数 语 法 ， 语 法 分 析 器 是 可 
以 忽略 至 日 字符 和 注释 的 。 如 采 我 们 不 想 让 空 日 字符 和 注释 在 语法 中 


到 处 都 是 ， 我 们 就 必须 让 词法 分 析 絮 丢弃 它们 。 不 幸 的 是 ， 这 意味 着 

程序 中 将 完全 无 法 访问 空白 字符 和 注释 ， 也 无 法 对 它们 进行 进一步 处 

理 。 忽 略 却 保留 注释 和 衬 日 字符 的 秘诀 是 将 这 些 词 法 符号 达 入 一 个 “ 隐 
城 通 道 ”。 语 法 分 析 瑚 只 处 理 一 个 通道 ， 因 此 我 们 可 以 将 希望 保留 的 词 
法 符号 送 入 其 他 通道 内 。 下 面 是 完成 上 述 工 作 的 Java 语 法 : 


tour/Java.g4 
COMMENT 


Me -> channel (HIDDEN) // 匹配 /* 和 */ 之 间 的 任何 东西 


WS : [ \r\t\uO00C\Nn]+ -> channel (HIDDEN) 


同 我 们 之 前 讨论 过 的 “->skip” 一 样 ，“->channel (HIDDEN) ”也 是 一 个 
词法 分 析 屁 指令 。 此 处 ， 它 设置 了 这 些 词 法 符号 的 通道 号 ， 这样 ， 这 
些 词法 符号 就 会 个 语 法 分 析 絮 忽略 。 词 法 符号 流 中 仍然 保存 大 这 些 原 
始 的 词法 符号 序列 ， 只 不 过 在 向 语法 分 析 器 提供 数据 时 忽略 了 那些 处 
于 已 关闭 通道 的 词法 符号 。 


介绍 完 上 面 这 些 词法 分 析 器 的 特性 ， 我 们 就 圆满 地 完成 了 今天 的 
ANTLR 之 旅 。 本 章 介 绍 了 使 ANTLR 灵 活 易 用 的 基本 要 素 。 我 们 并 没有 
涉及 任何 细节 ， 而 是 看 到 了 ， 在 实践 中 ，ANTLR 是 如 何 解决 一 些 不 大 
但 却 现实 的 问题 的 。 我 们 感受 了 ANTLR 的 语法 符号 。 我 们 实现 的 访问 
器 和 监听 器 让 我 们 不 需要 在 语法 中 典 入 动作 就 能 完成 计算 和 翻译 工 

作 “。 我 们 也 看 到 了 ， 有 些 时 候 ， 内 内 动 作 是 进行 特殊 的 内 部 控制 必 不 


可 少 的 手段 。 最 后 ， 我 们 看 到 了 一 些 词法 分 析 右 和 词法 符号 流 的 神奇 


特性 。 


接 下 来 ， 我 们 需要 做 的 是 ， 放 慢 脚 步 ， 带 着 一 颗 求知 大 渴 的 心 重新 审 
视 本 章 中 的 概念 。 下 一 部 分 中 的 每 一 章 都 让 我 们 离 成 为 编程 语言 的 实 
现 者 更 近 一 步 。 我 们 将 从 学 习 ANTLR 语 法 标记 开始 ， 逐 步 了 解 如 何 参 
照 示 例 和 编程 语言 的 参考 手册 编写 ANTLR 语 法 。 在 拥有 这 些 基础 知识 
后 ， 我 们 将 会 为 真实 世界 中 的 编程 语言 编写 ANTLR 语 法 ， 然 后 深入 学 
习 之 前 商 单 提 及 的 语法 分 析 树 监听 郁 和 访问 郁 机 制 。 


之 后 ， 在 第 三 部 分 中 ， 我 们 将 会 研究 一 些 大 师 级 的 主题 。 


本 书 由 “ePUBw.COM” 整 理 ，ePUBw.COM 提供 
最 新 最 全 的 优质 电子 书 下 载 ! ! ! 


第 二 部 分 ANTLR 开 发 语言 类 应 用 
程序 


在 第 二 部 分 中 ， 我 们 将 会 学 习 如 何 参 照 编程 语言 的 标准 和 样 例 输入 来 
编写 语法 。 我 们 将 会 为 CSV 格 式 (comma-separated value) 、JSON、 


DOT 图 形 格式 〈 一 种 简单 的 编程 语言 ) 以 及 R 语 言 构造 语法 。 之 后 ， 我 
们 将 通过 遍历 语法 分 析 树 来 深入 人 研究 构建 语言 类 应 用 程序 的 细节 。 


第 5 章 设计 语法 


在 第 一 部 分 中 ， 我 们 认识 了 ANTLR， 也 了 解 了 语法 和 语言 类 应 用 程 

序 。 现 在 ， 我 们 要 放 慢 脚步 ， 学 习 一 些 实用 的 细 市 ， 例 如 建立 内 部 数 
据 结 构 ， 提 取信 息 ， 以 及 翻译 输入 内 容 等。 我 们 的 第 一 步 是 学 习 如 何 
编写 语法 。 本 章 中 ， 我 们 将 分 析 编 程 语 言 中 最 常见 的 语法 结构 和 词法 
结构 ， 学 会 如 何 用 ANTLR 标 记 来 表达 它们 。 在 此 基础 上 ， 我 们 将 在 下 


一 章 中 构造 一 些 真实 的 语法 。 


我 们 不 能 仅仅 通过 一 些 星 深 难 懂 的 ANTLR 概 念 来 学 习 构 造 语法 。 首 
先 ， 我 们 需要 研究 编程 语言 的 通用 模式 ， 学 习 如 何在 语句 中 将 它们 辩 
识 出 来 。 通 过 这 种 研究 ， 我 们 就 能 大 体 上 得 知 这 种 语言 的 结构 (一 种 
语言 模式 就 是 一 种 递归 的 语法 结构 ， 例 如 ， 英 语 的 一 个 句子 包含 “主语 - 
谓语 动词 -宾语 ”， 而 日 语 的 一 个 句子 包含 “主语 -宾语 -谓语 动词 *") 。 最 
终 ， 我 们 需要 从 一 系列 有 代表 性 的 输入 文件 中 归纳 出 一 门 语言 的 结 

构 。 在 完成 这 样 的 归纳 工作 后 ， 我 们 就 可 以 正式 使 用 ANTLR 语 法 来 表 


达 这 门 语言 了 。 


好 消 刀 是， 虽然 人 们 在 过 去 的 五 十 年 间 发 明了 很 多 种 编程 语言 ， 但 
征 ， 相 对 而 言 ， 基 本 的 语言 模式 种 类 并 不 多 。 这 种 情况 的 出 现 ， 坪 因 


为 人 们 在 设计 编程 语言 时 ， 倾 问 于 将 它们 设计 的 和 脑海 中 的 目 然 语言 
相似 。 我 们 期 望 看 到 有 序 的 词法 符号 ， 也 期 望 看 到 词法 符号 间 的 依赖 
关系 。 例 如 ，{ (}) 是 不 符合 语法 的 ， 因 为 其 中 的 词法 符号 顺序 不 
对 ; (1+2 因 为 少 了 一 个 配对 的 ) 而 令 人 难以 接受 。 除 此 之 外 ， 编 程 语 
言 通常 也 因 设计 着 使 用 了 通用 的 数学 符号 而 显得 十 分 相似 。 在 词法 层 
面 上 ,不 同 的 编程 语言 也 倾 辐 于 使 用 相同 的 结构 ， 例 如 标识 从、 整 


数 、 字 符 串 ， 等 等 。 


对 单词 顺序 和 单词 间 依赖 关系 的 限制 来 源 于 目 然 语言 ， 隶 渐 发 展 为 以 
下 四 种 抽象 的 计算 机 语言 模式 : 


序列: 即 一 列 元 素 ， 例 如 一 个 数组 初始 化 语句 中 的 值 。 


:选择 : 在 多 种 可 选 方案 中 做 出 选择 ， 例 如 编程 语言 中 的 不 同 种 类 的 语 
句 。 


词法 符号 依赖 : 一 个 词法 符号 需要 和 茶 处 的 另外 一 个 词法 符号 配对 ， 
例如 左右 括号 匹配 。 


- 崩 套 结构 :一 种 目 相 似 的 语言 结构 ， 例 如 编程 语言 中 的 娩 公 算 术 表 达 
式 或 者 艾 公 语句 块 。 


为 实现 以 上 模式 ， 我 们 的 语法 规则 只 需要 可 选 方案 、 词 法 符号 引用 和 
规则 引用 即 可 (巴克 斯 -诺尔 范式 ，Backus-Naur-Format，BNF) 。 尽 管 


如 此 ， 为 方便 起 见 ， 我 们 还 是 将 这 些 元 素 划 分 为 子规 则 。 子 规则 是 用 
括号 包围 的 内 联 规则 。 我 们 可 以 用 以 下 符号 标记 子规 则 ， 用 于 指明 其 
中 的 语法 片段 出 现 的 次 数 : 可 选 (? ) 、 出 现 0 次 或 多 次 (*) 、 至 少 
一 次 (+) (扩展 巴克 斯 -诺尔 范式 ，Extended Backus-Naur-Format， 


EBNF) 。 
大 多 数 读者 应 该 曾经 见 过 这 种 语法 的 形式 ， 或 者 至 少 曾 经 接触 过 正则 
表达 式 ， 不 过 ， 为 确保 所 有 人 在 同一 起 点 上 ， 我 们 还 是 从 最 基础 的 部 


分 讲 起 。 
5.1 从 编程 语言 的 范例 代码 中 提取 语法 


编写 语法 和 编写 软件 很 相似 ， 差 异 在 于 我 们 处 理 的 是 语言 规则 ， 而 非 
函数 或 者 过 程 (procedure) 。 ( 记 住 ，ANTLR 将 会 为 你 的 语法 中 的 每 
条 规则 生成 一 个 函数 。) 不 过 ， 在 深入 研究 语法 的 细节 之 前 ， 一 件 大 
有 神 益 的 事情 是 : 讨论 语法 的 整体 结构 以 及 如 何 建立 初始 的 语法 框 

杂 。 这 吏 生 我 们 本 世 要 完成 的 事情 ， 因 为 它 生 任何 编程 语言 项 目的 基 
础 步骤 。 如 果 你 迫不及待 地 要 构建 和 执行 你 的 第 一 个 语法 分 析 器 ， 不 
妨 回顾 第 4 章 ， 或 者 跳 到 下 一 章 去 看 第 一 个 例子 。 在 我 们 学 习 基 本 知识 
的 过 程 中 ， 可 能 会 在 下 一 章 的 例子 里 来 回 跳跃 ， 所 以 请 做 好 准备 。 


语法 由 一 个 为 该 语法 命名 的 头 部 定义 和 一 系列 可 以 相互 引用 的 语言 规 
则 组 成 。 


grammar MyG,; 
rulel : «stuff» ， 
rule2 : &more stuff» ， 


和 编写 软件 一 样 ， 我 们 必须 指明 我 们 需要 的 语言 规则 ， 即 其 中 
<<stuff>> 的 具体 内 容 ， 以 及 哪 条 规则 是 起 始 规则 〈 好 比 是 main () 方 
法 ) 。 


为 了 给 某 种 编程 语言 编写 语法 ， 我 们 必须 要 么 精通 它 ， 要 么 拥有 很 多 
有 代表 性 的 、 由 该 语言 所 编写 的 样 例 程序 。 显 然 ， 如 果 该 语言 的 参考 
手册 中 给 出 了 语法 ,或 者 存在 男 外 一 种 目 动 生成 融 对 其 语法 进行 的 表 
述 ， 那 束 再 好 不 过 了 。 不 过 ， 束 现在 而 言 ， 让 我 们 假设 我 们 没有 现成 
的 语法 作为 参考 。 


设计 民 好 的 语法 反映 了 编程 世界 中 的 功能 分 解 或 者 目 顶 同 下 的 设计 。 
这 意味 着 我 们 对 语言 结构 的 辨识 是 从 最 粗 的 粒度 开始 ， 一 直 进 行 到 最 
详细 的 层次 ， 并 把 它们 编写 成 为 语法 规则 。 所 以 ， 我 们 的 第 一 个 任务 
是 找到 最 粗 粒 度 的 语言 结构 ， 将 它 作 为 我 们 的 起 始 规则 。 在 秽语 中 ， 
我 们 可 以 使 用 sentence 规 则 作为 起 始 规则 。 对 于 一 个 XML 文件 ， 我 们 可 
以 使 用 document 规 则 作为 起 始 规则 。 对 于 一 个 Java 文 件 ， 我 们 可 以 使 用 
compilationUnit 规 则 作为 起 始 规则 。 


设计 起 始 规则 的 内 容 实际 上 融 是 使 用 “英语 伪 代 码 ? 来 质 述 输入 文本 的 
整体 结构 ， 这 和 我 们 编写 软件 的 过 程 有 点 类 似 。 例 如 ,“ 一 个 CSV 文 件 


就 是 一 系列 以 换行 符 为 终止 的 行 。” (a comma-separated-value[CSV]file 
is a sequence of rows terminated by newlines.) 其 中 ，is a 左 侧 的 单词 file 
就 是 规则 名 ， 右 侧 的 全 部 内 容 就 是 规则 定义 中 的 <<stuff>>。 


file : «sequence of rows that are terminated by newlines»》 ，; 


接 痢 ， 我 们 降低 一 个 层次 ， 摘 述 起 始 规则 右 侧 所 指定 的 那些 元 素 。 它 
右 侧 的 名 词 通 音 是 词法 符号 或 者 尚未 定义 的 规则 。 其 中 ， 词 法 符号 是 
那些 我 们 的 大 脑 能 够 轻易 识别 出 的 单词 、 标 点 符号 或 者 运算 符 。 正 如 
英语 语句 中 的 单词 是 最 基本 元 素 一 样 ， 词 法 符号 是 文法 的 基本 元 素 。 
起 始 规则 引用 了 其 他 的 、 需 要 进一步 细 化 的 语言 结构 ， 如 上 面 的 例子 
有 上 


再 降低 一 层 ， 我 们 可 以 说 ， 一 个 行 葡 是 一 系列 由 逗号 分 隔 的 字段 (a 
row is a sequence of fields separated by commas) 。 接 下 来 ， 一 个 字段 就 
是 一 个 数字 或 者 字符 串 (a field is anumber or string) 。 我 们 的 伪 代 码 
如 下 所 示 : 


file : «sequence of rows that are terminated by newlines» ，; 
row : sequence of fields separated by commas»》 ，; 
field : «number or string» ，; 


当 我 们 完成 对 规则 的 定义 后 ， 我 们 的 语法 草稿 就 成 形 了 。 让 我 们 来 试 
着 用 这 种 方法 描述 一 人 Java 文件 的 关键 结构 (我 们 用 斜体 来 突出 规则 
名 ) 。 在 最 粗 的 粒度 上 ， 一 个 Java 的 编译 单元 (compilation unit) 由 一 


个 可 选 的 包 声 明 语 句 (package specifier) 和 一 个 或 多 个 类 定义 (class 
definition) 组 成 。 其 中 ， 类 定义 由 关键 字 class 开 始 ， 之 后 是 一 个 标识 
符 、 可 选 的 父 类 名 (superclass specifier) 、 可 选 的 实现 语句 
(implements clause) ， 以 及 类 的 定义 体 (class body) 。 一 个 类 的 定义 
体 就 是 由 花 括 号 包 右 的 一 系列 类 成 员 (class member) 。 一 个 类 成 员 可 
以 是 内 部 类 定义 、 字 段 或 者 方法 。 然 后 ， 我 们 将 会 描述 字段 和 方法 ， 
接 下 来 是 方法 中 的 语句 。 你 应 该 已 经 明白 了 这 个 过 程 ， 从 最 高 的 层次 
开始 ， 逐 湖 癌 下 进行 ， 将 像 是 Java 类 定义 这 样 巨大 的 语言 结构 分 解 为 各 
干 条 稍 后 定义 的 规则 。 我 们 现在 能 够 写 出 如 下 的 语法 仿 代 码 : 


compilationUnit  : «optional packageSpec then classDefinitions» ; 
packageSpec : 'package' identifier ';' 
classDefinition 
'class' «optional superclassSpec optional implementsClause classBody» ; 
superclassSpec : 'super' identifier ; 
implementsClause : 
'implements' «one or more identifiers separated by comma» ，; 
classBody : '{' «Zzero-or-more members»》 '}' ; 
member : «nested classDefinition or field or method» ; 


如 果 以 现 有 的 语法 规范 作为 参考 ， 那 么 设计 类 似 Java 的 大 型 编程 语言 的 
ANTLR 语 法 就 会 容易 得 多 。 不 过 ， 盲 日 地 遵循 已 经 存在 的 语法 规范 可 
能 使 你 误 入 歧途 ， 我 们 接 下 来 将 会 讨论 这 一 点 。 


5.2 以 现 有 的 语法 规范 为 指南 


一 份 非 ANTLR 格 式 的 语法 规范 能 够 很 好 地 指导 编程 者 理 清 该 语言 的 结 
构 。 至 少 ， 一 份 已 经 存在 的 语法 规范 给 我 们 提供 了 一 份 非常 好 的 、 可 
供 参 考 的 规则 名 列表 。 不 过 ， 还 是 小 心 为 妙 。 我 不 建议 从 一 门 语言 的 
参考 手册 里 拷贝 语法 并 粘贴 到 ANTLR 中 ， 然 后 调试 到 它 正 常 工作 为 

止 。 请 把 参考 手册 当 作 一 份 指南 ， 而 非 一 份 代码 。 


出 于 使 语法 更 清晰 的 目的 ， 参 考 手 册 的 范围 通常 都 非常 宽 沁 ， 这 意味 
着 其 中 的 语法 能 够 匹配 很 多 实际 上 不 合法 的 语句 。 或 者 ， 语 法 可 能 存 
在 卜 义 ， 能够 以 多 种 方式 匹配 相同 的 输入 文本 。 例 如 ， 一 个 语法 可 能 
和 明 ， 表 达 式 可 以 调用 类 的 构造 器 或 者 普通 画 数 。 问 题 是 ， 二 者 都 可 
以 匹配 类 似 T (i) 的 输入 文本 。 理 想 情 况 下 ， 我 们 的 语法 中 应 该 不 存 
在 任何 歧义 。 


男 一 种 极端 情况 是 ， 参 考 手册 中 的 语法 对 语法 规则 的 约束 可 能 过 于 严 
格 。 某 些 规则 最 好 限制 语法 分 析 后 的 结果 ， 而 非 限制 语言 整体 的 语法 
结构 。 例 如 ， 在 12.4 太 中 ， 我 试图 分 析 W3C 的 XML 语 言 是 义 ， 却 对 它 
过 于 详细 的 细节 感到 一 头 雾 水 。XML 语 法 明确 指定 ， 标 签 中 的 空白 字 
符 在 哪些 位 置 是 必需 的 ， 在 哪些 位 置 是 可 选 的 。 知 道 这 一 点 固然 很 
好 ， 但 是 我 们 可 以 实现 一 个 更 简单 的 词法 分 析 器 ， 它 只 需 在 将 数据 传 
递 给 语法 分 析 器 之 前 丢弃 标签 中 的 全 部 空白 字符 即 可 。 我 们 的 语法 没 
有 必要 为 所 有 位 置 上 的 空白 字符 建立 测试 。 


上 述 XML 规 范 还 指出 ，<? xml...> 标 签 可 以 有 两 个 特殊 的 属性 : 
encoding 和 standalone。 我 们 需要 明白 这 个 限制 ， 不 过 ， 一 种 更 加 容易 
的 实现 方法 是 : 先 暂时 允许 任意 的 属性 名 ， 在 完成 语法 分 析 之 后 ， 检 
得 语法 分 析 树 来 确 休 所 有 的 限制 都 已 经 生效 了 。 最 后 ，XML 仅 仅 是 一 
系列 符 在 文本 中 的 标签 ， 所 以 它 的 语法 结构 非常 直观 。 唯 一 的 挑战 是 
如 何 将 标签 内 外 的 内 容 分 开 对 待 。 我 们 将 会 在 12.3 世 中 进一步 学 习 。 


在 刚 开始 的 时 候 ， 辨 识 一 条 语法 规则 并 使 用 伪 代 码 编写 右 侧 的 内 容 是 
一 项 充满 挑战 的 工作 ， 不 过 ， 它 会 随 看 你 为 不 同 语言 编写 语法 的 过 程 
变 得 越 来 越 容易 。 在 学 习 本 书 例 了 于 的 过 程 中 ， 你 将 会 得 到 充分 的 锻 
炼 。 


一 旦 我 们 拥有 了 伪 代 码 ， 我 们 就 需要 将 它 翻译 为 ANTLR 标 记 ， 从 而 得 
到 一 个 能 够 正常 工作 的 语法 。 在 下 一 下 里 ， 我 们 将 会 定义 冰 见 的 四 种 

语言 模式 ， 研 究 如 何 将 它们 构造 成 ANTLR 语 法 。 之 后 ， 我 们 将 会 学 习 
如 何 定义 语法 中 引用 的 词法 符号 ， 如 “整数 "和 “标识 符 ”。 记 住 ， 在 本 章 
中 ， 我 们 学 习 的 是 语法 开发 过 程 中 的 基础 知识 ， 这 些 知识 将 会 为 下 一 

章 中 对 真实 世界 的 编程 语言 的 处 理 黄 定 坚实 的 基础 。 


5.3 使 用 ANTLR 语 法 识别 常见 的 语言 模式 


现在 ， 我 们 已 经 掌握 了 一 种 自 顶 同 下 的 、 草 拟 一 个 语法 的 策略 ， 接 下 
来 我 们 需要 关注 的 是 常见 的 语言 模式 : 序列 (sequence) 、 选 择 


(choice) 、 词 法 符号 依赖 (token dependency) ， 以 及 嵌 套 结构 
(nested phrase) 。 在 之 前 的 章节 中 ， 我 们 见 过 这 些 模式 的 一 些 例子 。 
随 着 学 习 的 深入 ， 我 们 会 用 正式 的 语法 规则 将 特定 的 模式 表达 出 来 ， 
通过 这 种 方式 ， 我 们 就 能 够 掌握 基本 的 ANTLR 标 记 的 用 法 。 下 面 ， 让 
我 们 开始 学 习 这 些 最 常见 的 语言 模式 吧 。 


1. 序 列 模式 


在 计算 机 编程 语言 中 ， 这 种 结构 最 常见 的 形式 是 一 列 元 素 ， 束 像 上 文 
中 的 类 定义 中 包括 一 系列 方法 一 样 。 即 使 是 像 HTTP、POP 和 SMTP 这 
样 的 简单 的 “协议 语言 "中 ， 也 能 够 看 到 序列 模式 的 身影 。 协 议 的 输入 
通 溃 是 一 列 指令 。 例 如 ， 下 面 是 登录 一 台 POP 服 务 器 并 获取 第 一 条 消息 
的 指令 序列 : 


USER parrt 
PASS secret 
RETR 1 


每 个 指令 目 身 也 是 一 个 序列 。 大 多 数 指令 由 一 个 类 似 USER 和 RETR 的 
关键 字 (保留 字 ) ， 一 个 操作 数 和 一 个 换行 符 构 成 。 在 上 述 例子 中 ， 
我 们 可 以 说 一 个 检索 指令 就 是 一 个 天 键 字 ， 后 面 跟 着 一 个 整数 ， 再 后 
面 是 一 个 换行 符 。 使 用 语法 来 表述 这 样 的 序列 ， 我 们 只 需要 按照 顺序 
将 它们 列 出 即 可 。 在 ANTLR 标 记 中 ， 检 索 指令 可 表达 

为 : RETRINTAn' ， 其 中 ，INT 代 表 整 数 类 型 的 词法 符号 。 


retr : 'RETR' INT '\n' ; // 匹配 “关键 字 - 整数 - 换行 符 ” 序 列 


注意 ， 我 们 可 以 直接 使 用 类 似 有 ETR' 的 常量 字符 串 来 表示 任意 简单 字 
符 序列 ， 诸 如 关键 字 或 者 标点 符号 等 (我们 将 会 在 5.5 节 中 探讨 类 似 
INT 的 词法 结构 ) 。 


我 们 使 用 语法 规则 来 为 编程 语言 的 特定 结构 命名 ， 这 就 好 像 我 们 在 编 
程 时 将 若干 个 语句 组 合成 一 个 函数 。 在 上 例 中 ， 我 们 将 RETR 命 名 为 
retr 规 则 。 这 样 ， 在 语法 的 其 他 地 方 ， 我 们 可 以 直接 把 规则 名 作为 简称 
来 引用 RETR。 


接 下 来 让 我 们 看 一 个 任意 长 度 序列 的 例子 ， 在 Matlab 中 ， 向 量 是 保存 在 
形 如 [123] 的 一 列 整数 中 的 。 对 于 有 限 长 度 的 序列 ， 我 们 可 以 逐个 列 出 
其 中 的 元 素 ， 但 是 在 这 种 情况 下 ， 我 们 不 能 通过 INT INTINTINT INT 
INT INT INT INT... 方 式 来 列举 所 有 可 能 的 情况 。 


我 们 使 用 + 字符 来 处 理 这 种 一 个 或 多 个 元 素 的 情况 。 例 如 ， (INT) + 描 
述 一 个 任意 长 度 的 、 整 数组 成 的 序列 。 作 为 简写 ，INT+ 也 是 可 以 的 。 
如 有 果 这 样 的 序列 可 以 为 空 ， 那 么 我 们 使 用 代表 “和 零 个 或 多 个 元 素 ” 的 * 字 
符 : INT*。 上 述 字符 好 比 是 编程 语言 中 的 循环 ， 当 然 ，ANTLR 目 动 生 
成 的 语法 分 析 亏 也 是 通过 循环 来 实现 它们 的 功能 的 。 


序列 模式 的 变 体 包括 : 市 终止 符 的 序列 模式 和 带 分 隔 符 的 序列 模式 。 
CSV 文 件 同时 使 用 了 这 两 种 模式 。 下 面 是 我 们 在 先前 的 章节 中 使 用 


ANTLR 标 记 写 出 的 伪 代 人 码 语法 : 


file : (row '\n')* ， // 以 一 个 '\n' 作为 终止 符 的 序列 
row : field (',' field)* ; // 以 一 个 ',' 作为 分 隔 符 的 序列 
field: INT ; // 假设 字段 都 是 整 关 


file 规 则 使 用 带 终 止 符 的 序列 模式 来 匹配 零 个 或 多 个 row"\n' 序 列 。 其 中 
序列 中 的 每 个 元 素 都 以 \n' 字 符 结 束 。row 规 则 使 用 带 分 隔 符 的 序列 模式 
来 匹配 一 个 field 后 面 跟着 零 个 或 多 个 '，'field 序 列 的 情形 。'，' 隔 开 了 所 
有 的 field。row 规 则 匹配 类 似 1、1，2 以 及 1，2，3 的 序列 。 


我 们 再 来 看 看 其 他 编程 语言 里 的 相同 结构 ， 例 如 ， 下 面 的 语法 匹配 类 
似 Java 的 、 每 个 语句 部 由 分 号 结束 的 编程 语言 : 


stats : (stat ';')* ; // 匹配 零 个 或 多 个 以 ';' 终止 的 语句 


与 之 相似 ， 下 面 的 语法 匹配 以 逗号 分 隅 的 多 个 表达 式 ， 我 们 可 以 在 一 
次 函数 调用 的 参数 列表 中 找到 这 样 的 例子 : 


exprList : expr (',' expr)* ; 


就 连 ANTLR 元 语言 也 使 用 了 序列 模式 。 下 面 的 语法 片段 显示 了 ANTLR 
是 如 何 使 用 它 目 身 的 句法 表达 “规则 定义 ”这 条 句法 的 : 
// 匹配 这 样 的 结构 : ， 规 则 名 :' 后 面 跟着 至 少 一 个 备 选 分 支 


// 然后 是 若干 条 以 “| ' 符号 分 隔 的 备 选 分 支 ， 最 后 是 一 个 ';， 
rule : ID ':' alternative ('|' alternative )* “7 


最 后 ， 还 有 一 种 特殊 的 “ 零 个 或 一 个 元 素 的 序列 *"， 它 可 以 用 ? 字符 来 
指定 ， 用 于 表达 一 种 “可 选 的 ”结构 。 在 Java 语 法 中 ， 我 们 能 够 发 现 
(extends'identifier) ? 这 样 的 字符 串 ， 它 用 于 匹配 可 选 的 父 类 声明 。 
相似 地 ， 为 了 匹配 可 选 的 变量 初始 化 语句 ， 我 们 可 以 写成 

('='expr) ? 。 这 有 点 像 是 在 “有 ”和 “无 ”之 间 选 择 。 在 下 一 节 中 我 们 会 
看 到 ， (='expr) ? 等 价 于 ('='expr|) 。 


2. 选 择 模 式 (多 个 备 选 分 支 ) 


如 琳 一 门 编程 语言 只 有 一 种 语句 ， 那 整 太 无 聊 了 。 即 使 是 网 络 协议 这 
样 的 最 简单 的 语言 ， 也 包含 多 种 有 效 语 句 ， 如 POP 协 议 中 的 USER 和 
RETR 指 令 。 这 促使 我 们 思考 选择 模式 的 必要 性 。 我 们 已 经 在 Java 语 法 
伪 代 码 的 member 规 则 中 看 到 了 一 个 选择 模式 的 实际 应 用 : <<ested class 


definition or field or method>>。 


我 们 使 用 | 符号 作为 “或 者 ”来 表达 编程 语言 中 的 选择 模式 ， 在 ANTLR 的 
规则 中 ， 它 用 于 分 隔 多 个 可 选 的 语法 结构 一 一 称 作 备 选 分 文 

(alternatives) 或 者 可 生成 的 结果 (productions) 。 选 择 模式 在 语法 中 
随处 可 见 。 


回 到 之 前 的 CSV 语 法 ， 我 们 可 以 编写 一 条 更 加 灵活 的 field 规 则 ， 人 允许 字 
段 中 出 现 整 效 或 者 字符 串 。 


field : INT | STRING ; 


在 下 一 章 的 语法 中 我 们 可 以 看 到 很 多 选择 模式 的 例子 ， 例 如 6.4 中 的 
type 规 则 里 列 出 的 许多 类 型 名 : 


type: 'float' | 'int' | 'void' ; // 用 户 定义 的 类 型 


在 6.3 世 中 ， 我 们 在 图 的 描述 中 可 以 看 到 ， 其 中 列 出 了 所 有 可 能 出 现 的 

语句 

Stmt : node stmt 
| edge stmt 
| attr stmt 
| id '=' id 
| subgraph 


任何 时 候 ， 当 你 说 到 “语言 结构 x 可 以 是 这 样 或 者 那样 ?时 ， 你 就 需要 用 
到 选择 模式 ， 也 融 是 在 x 规 则 中 使 用 | 。 


语法 中 的 序列 模式 和 选择 模式 使 我 们 能 够 编写 语言 的 框架 ， 但 是 这 还 
不 够 ， 接 下 来 ， 还 有 两 种 关键 的 模式 要 学 习 ， 词法 符号 依赖 稀 套 结 
构 。 在 语法 中 ， 它 们 通常 是 一 起 出 现 的 ， 不 过 ， 为 简单 起 见 ， 我 们 先 
来 单独 分 析 词法 符号 依赖 模式 。 


3. 词 法 符号 依赖 模式 


在 之 前 的 例子 中 ， 我 们 使 用 INT+ 来 表示 Matlab 的 向 量 中 的 整数 序列 [1 2 
3]。 为 了 描述 回 量 两 侧 的 方 括号 ， 我 们 需要 一 种 方法 来 表达 对 这 样 的 词 


法 符号 的 依赖 。 此 时 ， 如 采 我 们 在 茶 个 语句 中 看 到 了 某 个 符号 ， 我 们 
束 必 须 在 同一 个 语句 中 找到 和 它 配 对 的 那个 符号 。 为 表达 出 这 种 语 

义 ， 在 语法 中 ， 我 们 使 用 一 个 序列 来 指明 所 有 配对 的 符号 ， 通 常 这 些 
从 号 会 把 其 他 元 素 分 组 或 者 包 衰 起来。 在 上 例 中 ， 我 们 可 以 用 下 面 这 
种 方式 指定 一 个 完整 的 癌 量 : 


Vector :| INTt "7 : Af LI, [1 21; Ll 2 31, 015 


查看 任何 一 个 用 你 喜欢 的 编程 语言 编写 的 程序 ， 你 束 会 发 现 ， 几 乎 所 
有 的 用 于 分 组 的 符号 都 是 成 对 出 现 的 : 〈……) ，{...} 以 及 [...]。 从 6.4 市 
的 学 习 中 我 们 能 够 发 现 ， 在 方法 调用 的 圆 括号 间 ， 以 及 用 于 数组 索引 
的 方 括 号 间 ， 词 法 符号 依赖 模式 部 存在 。 


expr: expr '(' exprList? ')' // 类 似 f()，f(x)，f(1,2) 的 函数 调用 
| expr [人 expr 了 // 类 似 ali]，a[i][j] 的 数组 索引 


我 们 也 在 方法 声明 中 看 到 左右 加 括号 之 间 的 词法 符号 依赖 模式 。 


examples/Cymbol.g4 
functionDecl 
type ID '(' formalParameters? ')' block // "void f(int x) {f...}" 


formalParameters 
formalParameter (',' formalParameter)* 


formalParameter 
type ID 


下 面 这 段 语 法 来 自 6.2 丰 ， 它 匹配 由 一 对 花 括 号 包 右 的 对 象 定义 ， 例 如 
{"name": "parrt", "passwd": "secret"}° 


examples/JSON.g4 
object 

H "{" pair (;" pair)* *¥" 
| '{' '}' // 空 对 象 


We STRING ':' value,; 
更 多 词法 符号 配对 的 例子 ， 参 见 6.5 玉 。 


请 记 住 ， 一 个 有 依赖 的 符号 并 非 必须 匹配 到 它 所 依赖 的 符号 。 在 C 语 言 
基础 上 发 展 起 来 的 编程 语言 通 闻 拥有 ay? b: c 三 元 运算 符 ， 只 有 在 这 种 
情况 下 ，? 才 依 赖 其 后 的 : 


此 外 ， 词 法 符号 间 的 依赖 并 不 意味 着 一 定 存在 册 套 结构 。 例 如 ， 一 个 
品 量 中 可 能 不 允许 出 现 敬 套 的 疝 量 。 不 过 ， 通 第 情 况 下 ， 被 匹配 的 符 
号 包 右 的 内 容 是 典型 的 租 套 结构 。 我 们 很 容易 见 到 类 似 a[ (i) ] 和 
{while (b) {i=1; 3 的 结构 。 这 就 是 我 们 需要 学 习 的 最 后 一 种 语言 模 
ks 


4. 巾 套 模 式 


磐 套 的 词组 是 一 种 目 相似 的 语言 结构 ， 即 它 的 和 子 词 组 也 遵循 相同 的 结 
构 。 表 达 式 是 一 种 典型 的 目 相 似 语 言 结 构 ， 它 包含 多 个 从 套 的 、 以 运 
算 符 分 隔 的 子 表达 陈 。 与 之 相似 ， 一 个 while 循 环 代码 块 是 一 个 代 父 在 


更 外 层 代 码 块 中 的 代码 块 。 在 语法 中 ， 我 们 使 用 递归 规则 来 表达 这 种 
目 相似 的 语言 结构 。 所 以 ， 如 果 一 条 规则 定义 中 的 仿 代 码 引 用 了 它 目 
身 ， 我 们 就 需要 一 条 递归 规则 ( 自 引 用 规则 ) 。 


让 我 们 看 一 看 如 何 处 理 “ 代 码 块 ”这 样 的 藤 套 结构 。 一 个 while 表 达 式 由 
一 个 关键 子 while 开 始 ， 后 面 古 一 个 在 括号 中 的 条 件 表达 式 ， 表 后 面 就 
苹 一 条 语句 。 我 们 也 可 以 把 多 个 语句 放 入 伦 括 号 中 ， 当 作 一 个 “代码 块 
语句 ”使 用 。 对 上 述 规 则 的 语法 表述 如 下 所 示 : 


stat: 'while' '(' expr ')' stat // [匹配 WHILE 语句 
| '{' stat* '}' // 匹配 花 括号 中 若干 条 语句 组 成 的 代码 块 
ee // 其 他 种 类 的 语句 


其 中 ，while 中 的 stat 是 一 个 循环 结构 ， 它 可 以 是 一 个 语句 或 者 由 花 括 号 
包 庄 的 一 组 语句 。 因 为 stat 规 则 在 前 两 个 备 选 分 支 中 引用 了 自身 ， 我 们 
称 它 为 直接 递归 (directly recursive) 的 。 如 果 我 们 将 它 的 第 二 个 备 选 
分 文 抽取 出 来 ，stat 规 则 和 block 规 则 就 会 互 为 间接 递归 (indirectly 


recursive) 的 。 


stat: 'while' '(' expr ')' stat // 匹配 WHILE 语句 
| block // 匹配 一 个 语句 组 成 的 代码 块 
a // 其 他 种 类 的 语句 


bloek: ‘'{" stat* "}" ; // 匹配 花 括 号 中 若干 条 语句 组 成 的 代码 块 


大 部 分 编程 语言 都 包含 多 种 形式 的 目 相 似 结构 ， 这 带 来 的 结果 是 语法 
中 包含 很 多 递归 规则 。 让 我 们 一 起 来 看 一 门 简单 的 、 表 达 式 类 型 只 有 


三 种 一 数组 索引 表达 式 、 括 号 表达 式 和 整数 一 “的 编程 语言 。 下 面 
是 用 ANTLR 标 记 书 写 的 语法 : 


expr: ID '[' expr ']' // a[1l], a[b[1]], a[(2*b[1])] 
| '(' expr ')! NA (1 (Calll);, (((1))); (2*al1l) 
| INT // 1, 94117 


其 中 的 递归 发 生 的 非 肖 目 然 。 因 为 一 个 数组 的 索引 值 本 映 也 是 一 个 表 
达 却 ， 所 以 我 们 束 在 对 应 的 备 选 分 文中 直接 引用 了 expr。 实 际 上 ， 索 引 
值 本 身 也 可 以 生 一 个 数组 索引 表达 式 。 从 这 个 例子 中 我 们 可 以 看 到 ， 
语言 结构 上 的 递归 目 然而 然 地 使 得 语言 规则 发 生 了 递归 。 如 图 5-1 所 示 
征 两 个 样 例 输入 对 应 的 语法 分 析 树 。 


expr expr 
A I~、、 
a [ expr | ( expr ) 
| pa 
1 a [ expr | 
z 


图 5-1 两 个 样 例 输 入 对 应 的 语法 分 析 树 


正如 我 们 在 2.1 节 中 看 到 的 那样 ， 语 法 分 析 树 的 非 叶 子 节点 代表 了 规 
则 ， 而 叶子 节操 代表 了 词法 符号 。 一 条 从 根 节 点 到 任意 节点 的 路 径 代 
表 了 对 应 的 规则 调用 栈 (同时 也 是 ANTLR 自 动 生 成 的 递归 下 降 语法 分 
析 器 的 调用 栈 ) 。 因 此 ， 代 表 弟 归 调 用 的 路 径 上 就 会 存在 对 多 个 相同 
规则 的 引用 。 我 喜欢 将 一 个 规则 市 点 看 作 它 的 后 代 子 树 的 标签 ， 因 为 
根 忆 点 是 expr， 所 以 整 棵 树 就 是 一 个 表达 式 (expression) 。 在 上 面 的 
例子 中 ，1 的 父 太 点 expr 说 明 ， 整 数 1 十 一 个 表达 式 。 


并 非 所 有 的 语言 都 有 表达 式 ， 例 如 数据 格式 定义 。 不 过 ， 你 所 接触 的 
大 多 数 语言 都 包含 非常 复杂 的 表达 式 《参见 6.5T) 。 此 外 ， 有 些 语法 
规范 中 对 表达 式 的 接 述 并 不 是 十 分 清楚 ， 所 以 稍 后 我 们 会 伦 些 时 间 来 
深入 研究 识别 表达 式 的 细 记 ， 这 十 一 件 很 有 价值 的 事情 。 


表 5-1 总 结 了 ANTLR 的 核心 语法 标记 ， 以 备 后 续 章 节 引 用 。 


表 5-1 ANTLR 核 心 标 记 


用 法 描 述 
x 匹配 词法 符号 、 规 则 引用 或 者 子规 则 x 
蓄 光 - 艺 匹配 一 列 规则 元 素 
可 本 | 可) 一 个 具有 多 个 备 选 分 支 的 子规 则 
x 匹配 x 或 者 忽略 它 
x* 匹配 x 零 次 或 多 次 
X 十 匹配 x 一 次 或 多 次 
Ks 定义 规则 r 
| i | 定义 具有 多 个 备 选 分 支 的 规则 r 


迄今 为 止 ， 我们 学 习 了 一 些 常见 的 计算 机 语言 的 模式 ， 对 它们 的 总 结 
见 表 5-2 


表 5-2 几 种 常见 的 计算 机 语言 的 模式 


模式 名 


序 州 模式 


党 终止 符 的 序列 模式 


它 足 一 个 有 限 长 度 或 者 任意 长 度 的 序 询 ， 序 绚 中 的 元 素 可 以 中 词法 符号 或 者 子规 
则 。 序 列 异 式 的 例 了 包括 变量 声明 (类 型 后 而 紧 跟 着 标识 符 ) 和 和 尾数 序列 ， 下 而 是 
范例 实现 : 


iw 
TN 


// Xx 后 面 跟着 y，..,，2z 
// MattLab 的 整数 向 量 

它 足 一 个 任意 长 的 、 可 能 为 空 的 序列 ， 该 序 纪 由 一 个 词法 符号 分 隔 开 ， 通 常 足 分 
号 或 者 换行 符 ， 其 小 的 元 素 可 以 是 问 法 符号 或 者 了 规则 。 这 样 的 例 了 包括 类 C 语言 
的 诸 句 集合 利 一 些 用 换行 符 米 分 隔 的 数据 格式 。 下 面 是 范例 实现 : 
// Java 的 语句 集合 
// 多 行 数据 


(statement ';')* 
(row "Nn )* 


带 分 隔 符 的 序列 模式 


它 是 一 个 任意 长 的 、 可 能 为 空 的 序列 ， 该 序列 由 一 个 词法 符号 分 隔 开 ， 通常 是 去 
号 、 分 号 或 足 句号 ， 其 中 的 元 素 可 以 足 词法 符号 或 者 子规 则 。 这 样 的 例子 包括 函数 
定义 由 的 参数 表 、 函 数 调用 叶 传递 的 参数 表 、 某 些 语句 之 间 有 分 隔 符 却 无 终止 符 的 
编程 诸 言 ， 以 及 日 录 各 。 下 面 是 范例 实现 ; 

expr (',' expr)* // 函数 调用 时 传递 的 参数 


( expr ('z” expr)* je 

'f/'? name ('/' name)* 

Stat CC" ”SE 

它 足 一 组 备 选 分 文 的 集合 。 
XML 标签 。 下 面 是 范例 实现 ， 

type : 'int' | 'float' 


// 函数 调用 对 传递 的 参数 是 可 选 的 
// 简化 的 目录 名 
// 若干 个 SmallTalk 语句 


这 样 的 例子 包括 不 同 种 类 的 类 型 、 语 句 、 表 达 式 或 者 


» 


stat : ifstat | whilestat | 'return' expr ';'; 
exor  “{ Rr | LNT | ED:s 


ag 芋 “ 玖 、 


Name attribute* ">” | '<' 


7 Name '>' ; 


-个 词法 符号 需要 和 一 个 或 者 多 个 后 续 词 法 符号 此 配 ， 这 样 的 例子 包括 配对 的 圆 
括 导 、 花 括 导 、 方 括 导 和 尖 括 号 。 下 而 是 范例 实现 : 


us vaxpp yA 
ID '{' expr J" A 
"Stat "Ek" // 
人 


谋 套 表达 式 
数组 索引 去 达 式 
花 括 号 包 圳 的 若干 个 语句 
泛 型 声明 


它 足 一 种 自 相 似 的 语言 结构 。 这 样 的 例子 包括 表达 式 、Java 的 内 部 类 、 根 套 的 代 
码 块 以 及 散会 的 Python 困 数 定义 。 下 面 是 范例 实 击 : 
eorF 下 expr “Sh* | TD0.,; 


classDef : 


'class' ID '{' (classDef|method|field) '}' ; 


( 注 ， SmallTalk 语 言 的 语句 之 间 用 .分 隔 ， 最 后 一 条 语句 后 不 需要 。 


一 一 译 者 注 ) 


5.4 处 理 优先 级 、 左 递归 和 结合 性 


在 目 顶 癌 下 的 语法 和 手工 编写 的 递归 下 降 语法 分 析 露 中， 处理 表达 式 
都 是 一 件 相 当 束 手 的 事情 ， 这 目 先 是 因为 大 多 数 语法 都 存在 上 收 义 ， 其 
次 是 因为 大 多 数 语言 的 规范 使 用 了 一 种 特殊 的 递归 方式 ， 称 为 左 递归 
(eft recursion) 。 我 们 稍 后 会 详细 讨论 它 ， 现 在 请 记 住 一 点 ， 自 项 癌 
下 的 语法 和 语法 分 析 钾 的 经 典 形 式 无 法 处 理 左 递 归 。 为 了 益 明 这 个 问 
题 ， 假 设 有 一 种 简单 的 算术 表达 式 语言 ， 它 包含 乘法 和 加 法 运算 符 ， 
以 及 整数 因子 。 表 达 式 是 目 相 似 的 ， 所 以 ,很 目 然 地 ， 我 们 说 ， 一 个 
乘法 表达 式 是 由 * 和 连接 的 两 个 和子 表 达 式 ， 一 个 加 法 表达 式 是 由 + 连接 的 
两 个 子 表达 式 。 另 外 单个 整数 也 可 以 作为 简单 的 表达 式 。 这 样 写 出 的 
束 是 下 列 看 上 去 非常 合理 的 规则 : 


expr : expr '*' expr // 匹配 由 '*' 运算 符 连 接 的 子 表 达 式 
| expr '+' expr // 匹配 由 '+' 运算 符 连 接 的 子 表达 式 
| INT // 匹配 简单 的 整数 因子 


问题 在 于 ， 对 于 某 些 输入 文本 而 言 ， 上 面 的 规则 存在 歧义 。 换 句 话 
说 ， 这 条 规则 可 以 用 不 止 一 种 方式 匹配 某 种 输入 的 字符 流 ， 正 如 2.37 
中 所 摘 述 的 那样 。 这 个 语法 在 简单 的 整 效 表达 式 和 单 运算 符 表 达 式 上 
工作 得 很 好 一 一 例如 1+2 和 1*2 一 一 是 因为 只 存在 一 种 方式 去 匹配 它 
们 。 对 于 1+2， 上 述 语法 只 能 用 第 二 个 备 选 分 文 去 匹配 ， 如 图 5-2 左 侧 
的 语法 分 析 树 所 示 。 


expr expr expr 
pA 一作 pAb 
1 + 2 1 + expr expr * 3 


图 5-2 ”按照 不 同方 式 解释 的 语法 分 析 树 


但 是 对 于 1+2*3 这 样 的 输入 而 言 ， 上 壕 规 则 能 够 用 两 种 方式 解释 它 ， 如 
图 5-2 中 间 和 右 侧 的 语法 分 析 树 所 示 。 它 们 的 差异 在 于 ， 中 间 的 语法 分 
析 树 表示 将 1 加 到 2 和 3 相 乘 的 结果 上 去 ， 而 右 侧 的 语法 分 析 树 表示 将 1 
和 2 相 加 的 结 采 与 3 相 乘 。 


这 束 古 运算 符 优先 级 市 来 的 问题 ， 传 统 的 语法 无 法 指定 优先 级 。 大 多 
数 语 法 工具 ， 例 如 Bison， 使 用 额外 的 标记 来 指定 运算 符 优 先 级 。 


与 之 不 同 的 是 ，ANTLR 通 过 优先 选择 位 置 靠 前 的 备 选 分 支 来 解决 歧义 
问题 ， 这 隐 式 地 人 允许 我 们 指定 运算 符 优 先 级 。 例 如 ，expr 规 则 中 ， 乘 法 
规则 在 加 法 规则 之 前 ， 所 以 ANTLR 在 解决 1+2*3 的 歧义 问题 时 会 优先 
处 理 乘 法 。 稚 认 情 况 下 ，ANTLR 按 照 我 们 通 昔 对 * 和 + 的 理解 ， 将 运算 
符 从 左 向 右 地 进行 结合 。 尽 管 如 此 ， 一 些 运算 符 一 一 例如 指数 运算 符 
一 一 古 从 右 问 左 结合 的 ， 所 以 我 们 需要 在 这 样 的 运算 符 上 使 用 assoc 选 


项 手工 指定 结合 性 。 这 样 ， 输 入 的 2^A3A4 束 能 够 被 正确 解释 为 2^ 
(3A4) : 


expr : expr '^'<assoc=right> expr=// ^ 运算 符 是 右 结 合 的 
| INT 


注 : 在 ANTLR 4.2 之 后 ，<assoc=right> 需 要 被 放 到 备 选 分 支 的 最 左 侧 ， 
否则 会 收 到 警告 。 在 本 例 中 ， 正 确 写 法 是 : 


expr : <assoc=right> expr '^'expr 
| INT 


如 图 5-3 所 示 的 语法 分 析 树 展示 了 人 ^ 从 号 的 左 结合 版 本 和 石 结合 版 本 在 处 
理 相同 输入 时 的 差异 。 通 常人 们 采用 右 侧 语 法 分 析 树 所 代表 的 解释 方 
式 ， 不 过 ， 语 言 设计 着 可 以 目 由 地 决定 使 用 哪 一 种 结合 性 。 


图 5-3 ”展示 了 处 理 相同 输入 时 压 异 的 语法 分 析 树 


奉 要 将 上 述 三 种 运算 符 组 合成 为 同一 条 规则 ， 我 们 就 必须 把 ^ 放 在 最 前 
面 ， 因 为 它 的 优先 级 比 * 和 + 都 要 高 (1+2^3 的 结果 是 9) 。 


expr : expr '^'<assoc=right> expr //^ 运 算 符 是 右 结合 的 
| expr '*' expr // 匹配 由 '*' 运算 符 连 接 的 子 表达 式 

expr '+' expr // 匹配 由 '+' 运算 符 连接 的 子 表达 式 

| INT // 匹配 简单 的 整数 因子 


熟悉 ANTLR 3 的 读者 可 能 正在 等 我 指出 ， 和 所 有 传统 的 自 顶 向 下 的 语 
法 分 析 絮 生成 右 一 样 ，ANTLR 无 法 处 理 左 递归 规则 。 然 而 ，ANTLR 4 
的 一 项 重大 改进 束 是 ， 它 已 经 可 以 处 理 直 接 左 违 归 了 。 左 递归 规则 是 
这 样 的 一 种 规则 : 在 某 个 备 选 分 文 的 最 左 侧 以 直接 或 者 间接 方式 调用 
了 目 身 。 上 面 的 例子 中 的 expr 规 则 是 直接 左 递归 的 ， 因 为 除 INT 之 外 的 


所 有 备 选 分 文 都 以 expr 规 则 本 喘 开 头 〈 它 同时 也 是 右 递 归 (right 
recursive) 的 ， 因 为 它 的 某 些 备 选 分 文 在 最 右 侧 引用 了 expr) 。 


虽然 ANTLR 4 已 经 能 够 处 理 直 接 左 递 归 ， 但 是 它 还 无 法 处 理 间 接 左 递 
归 。 这 意味 着 我 们 无 法 将 expr 规 则 分 解 为 下 列 规则 ， 尽 管 它们 在 语义 上 


等 价 : 


expr : expo // 通过 expo 规则 间接 左 递归 地 调用 了 expr 规则 
| ... 


» 
expo : expr '^'<assoc=right> expr ; 


使 用 优先 级 上 升 (Precedence Climbing) 算法 解析 表达 式 


经 验 丰 证 的 编译 合作 者 通常 会 手工 编写 递归 下 降 的 语法 分 析 髓 ， 以 此 
榨 干 计算 机 的 最 后 一 滴 性 能 ， 同 时 完全 地 掌控 从 销 误 中 恢复 的 过 程 。 
通常 ， 它 们 不 编写 一 长 串 表 达 式 规则 ， 而 古 使 用 市 运算 符 优 先 级 的 语 
法 分 析 髓 。 


ANTLR 使 用 的 机 制 和 运算 符 优先 级 相似 ， 但 是 更 加 强大 ， 它 主要 源 于 
Keith Clarke 自 1986 年 起 的 工作 。Theodore Norvell 随 后 创造 了 术语 优先 
级 上 升 (precedence climbing) 。 相 似 地 ，ANTLR 将 直接 左 递归 蔡 换 为 
一 个 判定 循环 (predicated loop) ， 该 循环 会 比较 前 一 个 和 下 一 个 运算 
符 的 优先 级 。 我 们 将 在 第 11 章 中 深入 了 解 判定 。 


在 ANTLR 3 中 ， 为 了 识别 表达 式 ， 我 们 必须 将 之 前 出 现 过 的 、 左 递归 
的 expr 规 则 拆 分 成 多 条 规则 ， 每 个 优先 级 对 应 一 条 规则 。 例 如 ， 我 们 使 
用 下 面 的 规则 来 处 理 带 加 号 和 乘 号 的 表达 式 。 

expr : addExpr ; 

addExpr : multExpr ('+' multExpr)* ; 


multExpr: atom ('*' atom)* ; 
atom : INT ; 


像 C 和 Java 这 样 的 语言 中 ， 最 终 描 述 表 达 式 的 规则 大 概 有 十 五 条 ， 不 论 
征 构造 一 个 上 自 顶 向 下 的 语法 ， 还 是 手工 构建 一 个 递归 下 降 的 语法 分 析 
二 ， 这 样 复杂 的 规则 都 市 来 了 巨大 的 工作 量 。 


ANTLR 4 人 简化 了 处 理 (直接 ) 左 递归 表达 式 规 则 的 相关 工作 。 新 的 机 
制 不 仅 更 有 效率 ， 而 且 使 表达 式 规 则 更 简洁 、 更 易 理解 。 例 如 ， 在 Java 
语法 中 ， 用 于 描述 表达 式 的 规则 的 行 数 下 降 了 一 半 (从 172 行 下 降 到 91 


人 


在 实践 中 ， 我 们 可 以 用 直接 左 递归 来 处 理 所 有 我 们 关注 的 语言 结构 。 
例如 ， 下 面 的 规则 匹配 C 语 言 中 的 部 分 声明 语句 ， 如 * (*a) [][] 。 


decl : decl '[' ']' // 使 用 直接 左 递 归 匹 配 [] 后 缀 
| '*' decl /A xX, *XI], **x 
| '(' decl ')" // (x), (x[]), (*x)[] 
| ID 


欲 了 解 更 多 ANTLR (使 用 语法 变换 ) 支持 左 递归 的 细节 ， 请 参阅 第 14 


- 开 


.是 :2 


迄今 为 目 ， 我 们 已 经 学 习 了 计算 机 语言 中 的 常见 模式 ， 也 懂得 了 如 何 
使 用 ANTLR 标 记 来 表达 这 些 模式 。 不 过 ， 在 深入 研究 完整 的 范例 程序 
之 前 ， 我 们 需要 搞 清楚 如 何在 语法 规则 中 描述 其 引用 的 词法 符号 。 正 
如 存在 硅 干 种 关键 的 语法 模式 一 样 ， 我 们 发 现 ， 编 程 语言 中 还 存在 一 
些 极其 闻 见 的 词法 结构 。 编 写 一 个 完整 的 语法 实际 上 束 是 将 本 下 讲述 
的 语法 规则 和 下 一 节 讲 述 的 词法 规则 组 合 在 一 起 的 过 程 。 


5.5 识别 常见 的 词法 结构 


在 词法 角度 上 ， 不 同 的 计算 机 语言 的 外 观 都 十 分 相似 。 例 如 ， 如 果 我 
打 乱 一 段 输入 文本 的 顺序 ， 然 后 分 别 在 所 有 曾经 出 现 过 的 编程 语言 
将 词法 符号 ) 10 (人 重新 组 合 为 有 效 的 词组 ， 会 发 生 什么 呢 ? 五 十 年 
前 ， 我 们 在 LISP 中 看 到 的 是 (f 10) ， 在 Algol 中 看 到 的 是 f (10) 。 实 
际 上 , f (10) 在 从 Prolog 到 Java 再 到 Go 语言 的 几乎 所 有 编程 语言 中 都 
是 有 效 的 。 在 词法 角度 上 ， 不 论 是 函数 式 、 过 程式 、 声 明 式 ， 还 是 面 
向 对 象 的 编程 语言 ， 看 上 去 都 是 大 同 小 异 的 。 这 一 点 令 人 惊讶 。 


这 是 一 件 好 事 ， 因 为 我 们 只 需 描述 标识 符 和 整数 一 次 ， 然 后 稍 加 改 
动 ， 殊 可 以 将 它们 应 用 于 大 多 数 的 编程 语言 中 。 和 语法 分 析 右 一 样 ， 
词法 分 析 絮 也 使 用 规则 来 搬 述 种 类 索 多 的 语言 结构 。 在 ANTLR 中 ， 我 


们 使 用 的 古 几 乎 完全 相同 的 标记 。 唯 一 的 差别 在 于 ， 语 法 分 析 屁 通过 
输入 的 词法 符号 流 来 识别 特定 的 语言 结构 ， 而 词法 分 析 亏 通过 输入 的 


字符 流 来 识别 特定 的 语言 结构 。 


由 于 词法 规则 和 文法 规则 的 结构 相似 ，ANTLR 人 允许 二 者 在 同一 个 语法 
文件 中 同时 存在 。 不 过 ， 由 于 词法 分 析 和 语法 分 析 是 语言 识别 过 程 中 
的 两 个 不 同 阶段 ， 我 们 必须 告诉 ANTLR 每 条 规则 对 应 的 阶段 。 它 是 通 
过 这 种 方式 完成 的 ， 词 法 规则 以 大 写字 母 开 头 ， 而 文法 规则 以 小 写字 
母 开头 。 例 如 ，ID 是 一 个 词法 规则 名 ， 而 expr 是 一 个 文法 规则 名 。 


当 开始 编写 一 个 新 语法 的 时 候 ， 我 通常 从 一 个 已 有 的 语法 (例如 Java 语 
法 ) 中 复制 一 些 常 见 的 词法 结构 对 应 的 规则 : 标识 符 、 数 字 、 字 符 
串 、 注 释 ， 以 及 衬 日 字符 。 儿 乎 所 有 的 语言 ， 哪 人 是 XML 和 JSON 这 样 
的 非 编程 类 的 语言 ， 都 包 舍 这 些 词法 符号 的 变 体 。 例 如 ， 尽 管 二 者 的 
语法 差异 巨大 ，C 语 言 的 词法 分 析 器 还 是 能 够 这 无 问题 地 对 下 面 的 
JSON 字 符 流 进行 词法 分 析 。 


{ 
"title":"Cat wrestling", 
"chapters"sl[ 二 INFO se aw Fs wwe | 
} 


男 外 一 个 例子 是 多 行 注 释 。 在 Java 中 ， 多 行 注 释 使 用 /*...*/， 而 在 XML 
中 ， 多 行 注释 使 用 的 是 <! --.….-->， 除 了 开始 和 结束 的 字符 不 同 之 外 ， 


二 者 的 词法 结构 几乎 完全 相同 。 


对 于 关键 字 、 运 算 符 和 标点 符号 ， 我 们 无 须 声 明 词 法 规则 ， 只 需要 在 
文法 规则 中 直接 使 用 单 引号 将 它们 括 起 来 即 可 ， 例 如 "while'、*…， 以 
及 '++'。 有 些 开发 者 更 愿意 使 用 类 似 MULI 的 词法 规则 来 引用 ”%， 以 避 
免 对 其 的 直接 使 用 。 这 样 ， 在 改变 乘法 运算 符 的 时 候 ， 它 们 只 需 修 改 
MULIT 规 则 ， 而 无 须 逐 个 修改 引用 了 MULI 的 文法 规则 。 


为 了 展示 词法 规则 ， 让 我 们 一 起 来 构造 一 些 摘 述 利 见 词法 符号 的 词法 
规则 的 简化 版 本 ， 下 面 束 从 我 们 的 老 朋友 标识 符 开 始 吧 。 


1. 匹 配 标识 符 


在 语法 的 伪 代 码 中 ， 一 个 基本 的 标识 符 束 是 一 个 由 大 小 写字 母 组 成 的 
字符 序列 。 我 们 知道 ， 可 以 使 用 刚刚 掌握 的 方法 (...) + 来 表达 序列 模 
式 。 因 为 序列 中 的 元 素 既 可 以 是 大 写字 母 也 可 以 是 小 写字 母 ， 我 们 还 
知道 ， 应 当 在 子规 则 中 使 用 选择 运算 符 ; 


ID : ("a'..'2'|'4'..'Z')+ ; // 匹配 1 个 或 多 个 大 小 写字 母 


上 面 的 ANTLR 标 记 中 ， 唯 一 让 我 们 感到 新 鲜 的 是 范围 运算 符 : 'a'..'z"， 
它 的 意思 是 从 a 到 z 的 所 有 字符 。 这 实际 上 是 从 97 到 122 的 ASCI 码 。 如 
果 我 们 需要 使 用 Unicode 字 符 (Unicode code point) ， 就 必须 写 


作 N\uXXXX'， 其 中 XXXX 是 相应 的 Unicode 字 符 以 十 六 进 制 表示 的 码 点 
值 。 此 外 ，ANTLR 还 支持 正则 表达 式 中 用 于 表示 字符 集 的 缩写 : 


ID : [a-zA-Z]+ ; // 匹配 1 个 或 多 个 大 小 写字 母 


类 似 D 的 规则 有 时 候 会 和 其 他 词法 规则 或 者 字符 串 常 量 值 产生 冲突 ， 
例如 'enum' 。 


grammar KeywordTest; 
enumDef : 'enum’' '{' ... '}! 


FOR : 'for' ，; 


ID ; [a-zA-Z]+ ; // 不 会 匹配 'enum' 和 'for' 


ID 规 则 也 能 够 匹配 类 似 enum 和 for 的 关键 子 ， 这 意味 着 存在 不 止 一 种 规 
则 可 以 匹配 相同 的 输入 字符 串 。 要 和 弄 清 此 事 ， 我 们 需要 了 解 ANTLR 对 
这 种 混合 了 词法 规则 和 文法 规则 的 语法 文件 的 处 理 机 制 。 前 先 ， 
ANTLR 从 文法 规则 中 痛 选 出 所 有 的 字符 串 币 量 ， 并 将 它们 和 词法 规则 
放 在 一 起 。'enum' 这 样 的 字符 串 第 量 被 隐 式 定义 为 词法 规则 ， 然 后 放置 
在 文法 规则 之 后 、 显 式 定 义 的 词法 规则 之 前 。ANTLR 词 法 分 析 右 解决 
歧义 问题 的 方法 是 优先 使 用 位 置 靠 前 的 词法 规则 。 这 意味 着 ，ID 规 则 
必须 定义 在 所 有 的 关键 字 规 则 之 后 ， 在 上 面 的 例子 中 ， 它 在 FOR 规则 
之 后 。ANTLR 将 为 子 符 串 常量 隐 式 生成 的 词法 规则 放 在 显 式 定义 的 词 
法 规则 之 前 ， 所 以 它们 总 是 拥有 最 高 的 优先 级 。 因 此 ， 在 本 例 

中 ，'enum' 被 目 动 赋予 了 比 ID 更 高 的 优先 级 。 


为 ANTLR 目 动 将 词法 规则 放置 在 文法 规则 之 后 ， 下 面 的 KeywordTest 
语法 的 变 体会 生成 相同 的 语法 分 析 器 和 词法 分 析 器 : 

grammar KeywordTestReordered ; 

FOR “for” 3 

ID : [a-zA-Z]+ ; // 不 会 匹配 'enum' 和 和 'for' 


enumDef : 'enum' 'f{' ... '}',; 


上 述 标 识 符 中 不 允许 出 现 数字 ， 不 过 你 可 以 预习 6.3 贡 至 6.5 节 的 内 容 来 
了 解 ID 规则 的 完整 定义 。 


2. 匹 配 数字 


接 述 10 这 样 的 数字 非常 容易 ， 它 不 过 是 一 列 数字 而 已 。 


INT : '0'..'9'+ ; // 匹配 1 个 或 多 个 数字 


或 者 : 


INT : [0-9]+ ; // 匹配 1 个 或 多 个 数字 


不 辛 的 是 ， 浮 后 数 要 复杂 得 多 ， 不 过 ， 我 们 可 以 先 完 成 一 个 简化 的 版 
本 ， 忽 略 掉 指 数 形式 (关于 完整 的 匹配 浮 点 数 的 词法 规则 定义 ， 可 参 
阅 6.5T， 其 中 的 规则 甚至 可 以 匹配 类 似 3.2i 的 复数 ) 。 一 个 浮 点 数 以 一 
列 数字 为 开头 ， 后 面 跟着 一 个 点 ， 然 后 是 可 选 的 小 数 部 分 ; 浮 点 数 的 


男 外 一 种 格式 是 ， 以 点 为 开头 ， 后 面 古 一 列 数字 。 一 个 单独 的 点 不 是 
一 个 合法 的 浮 点 数 定 义 。 基 于 上 述 格 式 ， 我 们 的 浮 点 数 规则 使 用 了 选 
择 模式 和 序列 模式 。 


FLOAT: DIGIT+ '.' DIGIT* // 匹配 1. 39. 3.14159 等 ... 
| ',' DIGIT+ // 匹配 .1 .14159 


fragment 
DIGIT : [0-9] ; // 匹配 单个 数字 


在 这 里 ， 我 们 使 用 了 一 条 辅助 规则 DIGIT， 这 样 就 不 用 重复 书写 [0-9] 
了 。 将 一 条 规则 声明 为 fragment 可 以 告诉 ANTLR， 该 规则 本 身 不 是 一 
个 词法 符号 ， 它 只 会 被 其 他 的 词法 规则 使 用 。 这 意味 着 我 们 不 能 在 文 
法 规则 中 引用 DIGIT 。 

3. 匹 配 字符 串 常 量 

另外 一 种 计算 机 语言 共有 的 词法 符号 是 类 似 "Hello" 的 字符 串 常 量 。 

多 数 语言 中 的 字符 串 党 量 使 用 双 引 号 ， 部 分 语言 使 用 单 引 号 或 者 同时 


使 用 单 引号 和 双 引 号 《Python) 。 不 论 哪 种 分 界 符 ， 我 们 都 使 用 同一 种 
规则 来 匹配 字符 串 常 量 : 识别 分 界 符 之 间 的 全 部 内 容 。 


用 语法 伪 代 码 表 示 ， 一 个 字符 串 束 是 两 个 双 引 号 之 间 的 任意 字符 序 
列 


STRING : '”' .#y? '"'  ， // 匹配 "..." 间 的 任意 文本 


其 中 ， 点 号 通配符 匹配 任意 的 单个 字符 。 因 此 ，.* 束 是 一 个 循环 ， 它 匹 
配 零 个 或 多 个 字符 组 成 的 任意 字符 序列 。 显 然 ， 它 可 以 一 直 匹 配 到 文 


件 结束 ， 但 这 没有 任何 意义 。 为 解决 这 个 问题 ，ANTLR 通 过 标准 正则 
表达 式 的 标记 〈? 后 缀 ) 提供 了 对 非 信 禁 匹 配子 规则 (nongreedy 
subrule) 的 文 持 。 非 贫 禁 匹配 的 基本 含义 是 : “获取 一 些 字符 ， 直 到 发 
现 匹配 后 续 子 规则 的 字符 为 止 ”。 更 准确 的 朱 述 是 ， 在 保证 整个 父 规则 
完成 匹配 的 前 提 下 ， 非 贫 林 的 子规 则 匹配 数量 最 少 的 字符 。 有 关 非 贫 
梦 匹 配 的 更 多 细 市 ， 请 参阅 15.6 矿 。 与 之 相反 ，.* 十 信 禁 的 ， 因 为 它 仙 
梦 地 消费 掉 一 切 匹 配 的 字符 〈 在 本 例 中 就 是 匹配 通配符 .的 字符 ) 。 如 
果 .*? 令 你 感到 迷惑 不 解 ， 不 要 担心 ， 只 需要 记 住 它 是 一 种 匹配 双 引 号 
i 他 分 界 符 之 间 的 东西 的 模式 即 可 。 不 久之 后 ， 我 们 在 人 研究 注释 
的 章节 中 还 会 见 到 非 贫 林 循环 。 


过 
三 
将 


我 们 的 STRING 规 则 还 不 够 完善 ， 因 为 它 不 允许 其 中 出 现 双 引 号 。 为 了 
解决 这 个 问题 ， 很 多 语言 都 定义 了 以 \ 开 头 的 转 义 序列 。 在 这 些 语言 
中 ， 如 果 硕 望 在 一 个 被 双 引 号 包围 的 字符 串 中 使 用 双 引 号 ， 我 们 束 需 
要 使 用 "。 下 列 规则 能 够 文 持 闻 见 的 转 义 字符 : 

STRINGE ES "mn 


fragment 
ESC : 1” 1 WW; YX 双 字 符 序 列 \" 和 ANN 


其 中 ，ANTLR 语 法 本 身 需要 对 转 义 字符 \ 进 行 转 义 ， 因 此 我 们 需要 来 
表示 单个 反 斜 杠 字 符 。 


现在 ，STRING 规 则 中 的 循环 既 能 通过 ESC 片 段 规则 (fragment rule) 来 
匹配 转 义 字符 序列 ， 也 能 通过 通配符 来 匹配 任意 的 单个 字符 。*#? 运算 
符 会 使 (ESCI|.) *? 循环 在 看 到 后 续 子 规则 ， 即 一 个 未 转 义 的 双 引 号 时 


终止 。 
4. 匹 配 注释 和 至 日 字符 


当 词 法 分 析 右 匹配 到 我 们 刚刚 定义 过 的 那些 词法 符号 的 时 候 ， 它 会 将 
匹配 到 的 词法 符号 放 入 词法 符号 流 ， 输 送 给 语法 分 析 紫 。 之 后 ， 由 语 
法 分 析 器 来 检查 词法 符号 流 的 语法 结构 。 但 是 ， 当 词法 分 析 器 匹配 到 
注释 和 空 日 字符 的 时 候 ， 我 们 通常 布衣 将 它们 丢弃 。 这 样 ， 语 法 分 析 
如 束 不 必 处 理 注释 和 空 日 字符 了 。 否 则 ， 下 列 文法 规则 束 变 成 了 一 团 
乱 态 ， 且 十 分 容易 出 错 ， 其 中 ，WS 是 代表 空白 字符 的 词法 规则 : 


assign : ID (WS|COMMENT)? '=' (WS|COMMENT)? expr (WS|COMMENT)? ; 


定义 需要 被 丢弃 的 词法 符号 的 方法 和 定义 正常 的 词法 符号 的 方法 一 
样 。 我 们 只 需要 使 用 skip 指 令 通 知 词法 分 析 器 将 它们 丢弃 即 可 。 例 如 ， 
下 面 是 匹配 类 C 语 言 中 的 单行 和 多 行 注 释 的 方法 : 


LINE COMMENT : '//，.*? ri? :1n' -> skip ; // 匹配 "“// ”任意 字符 序列 '\n' 
COMMENT : /XP kf -> skip ; // 匹配 "/*" 任意 字符 序列 "*/" 


在 LINE_COMMENT 规 则 中 ，.*? 会 消费 挥 /后 面 的 一 切 字 人 符 ， 直 人 至 下 
到 换行 符 \n 为 止 。 (可 以 将 本 条 规则 放 在 空白 字符 串 之 前 来 匹配 


Windows 风 格 的 换行 符 \n) 。 在 COMMENT 规 则 中 ，.*? 消费 /* 和 状 之 
间 的 一 切 字 符 。 词 法 分 析 器 可 以 接受 许多 种 位 于 -> 操作 符 之 后 的 指 

令 ，skip 只 是 其 中 之 一 。 例 如 ， 我 们 能 够 使 用 channel 指 令 将 某 些 词法 符 
号 放 入 一 个 “隐藏 的 通道 "并 输送 给 语法 分 析 器 。 更 多 有 关 词 法 符号 通 

道 的 内 容 ， 请 参阅 12.17。 


现在 ， 让 我 们 来 处 理 最 后 一 种 词法 符号 一 一 空 日 子 件 。 大 多 数 编 程 语 
言 将 裤 日 字符 看 作词 法 符号 间 的 分 隔 符 ， 并 将 它们 忽略 (Python 是 一 个 
例外 ， 它 使 用 空白 字符 来 达到 某 些 语法 上 的 目的 : 换行 符 代 表 一 条 命 
令 的 终止 ， 特 定数 量 的 缩 进 指明 和 骨 套 的 层级 ) 。 下 列 规则 告诉 ANTLR 
下 生生 月 于 人 


WAStlArlAn)+ -> skip 7/ /匹配 一 个 或 多 个 空白 字符 并 将 它们 丢弃 
或 者 : 
WS : [ \t\r\n]+ -> Skip ; // 匹配 一 个 或 多 个 空 昌 字符 并 将 它们 丢弃 


当 换 行 符 既 十 可 以 忽略 的 空 日 字符， 又 是 命令 终止 符 的 时 候 ， 我 们 的 
据 烦 就 来 了 。 换 行 符 变 成 了 上 下 文 相 天 (context-sensitive) 的 。 在 某 种 
语法 上 下 文中 ， 我 们 应 该 丢弃 换行 符 ， 在 男 外 一 些 上 下 文中 ， 我 们 需 
要 将 它 输送 给 语法 分 析 器 ， 从 而 让 语法 分 析 器 得 知 命令 被 终止 了 。 例 
如 ， 在 Python 中 , f () 后 面 的 换行 符 开 始 代码 的 执行 ， 即 调用 函数 f 


() 。 但 是 我 们 也 可 以 在 括号 之 间 插 入 一 个 额外 的 换行 行 。Python 直 
到 ) 后 的 换行 符 才 执行 函数 的 调用 。 


今 $ python 
过 >>> def f(): print "hi" 


Ca 

> >>> f() 
《hi 

> >>> f( 
2 
《hi 


有 关 这 个 问题 的 详细 解决 方案 ， 请 参阅 12.2 丰 中 “有 趣 的 Python 换行 


符 "部 分 。 


现在 ， 我 们 知道 了 如 何 匹配 最 利 见 的 词法 结构 一 一 标识 符 、 数 字 、 字 
符 吕 、 注 释 以 及 罕 日 字符 的 基础 版 本 。 信 不 信 由 你 ， 即 使 是 一 门 大 型 
编程 语言 的 词法 分 析 器 ， 也 需要 这 些 词法 结构 作为 基础 。 如 表 5-3 所 示 
有 一 些 基础 的 词法 规则 供 我 们 使 用 ， 有 关 它 们 的 细 记 将 在 稍 后 提 及 。 


表 5-3 一 些 基础 的 语法 规则 


词法 符号 类 型 


描述 及 范例 
处 理 运 算 符 和 标点 符号 最 容易 的 方式 就 是 直接 在 文法 规则 中 引用 它们 。 
call : ID '(' exprList ')' 


标点 符号 一 些 开发 者 更 愿意 定义 类 似 LP ( 左 括 号 ，lett parenthesis) 的 词法 符号 标签 。 
call : ID LP exprList RP ; 
LB 
RP 
类 圭 字 关键 字 是 保留 的 标识 符 ， 我 们 既 可 以 直接 引用 它们 ， 也 可 以 为 它们 定义 词法 符号 类 型 。 
< 键 字 
returnStat : 'return' expr "7 
几乎 每 种 语言 中 的 标识 符 看 上 去 都 差不多 ， 它 们 之 间 的 差异 通常 在 于 第 一 个 字符 的 可 选 
值 以 及 是 否 人 允许 Unicode 字符 。 
标识 符 ID : ID LETTER (ID LETTER | DIGIT)* ; //C 语言 的 语法 片段 
fragment ID LETTER : 'a'..'2'|'A'..'Z2'|'_ '; 
fragment DIGIT : '0'..'9'，; 
( 续 ) 
词法 符号 类 型 描述 及 范例 
下 列 规则 定义 了 整数 和 简单 的 浮 点 数 。 
INT :; DIGIT+ ; 
数字 FLOAT 
: DIGITS ";" DIGITT* 
| *«" DIGITS 
匹配 双 引 号 包围 的 宁 符 串 
字符 串 STRING : '"' (ESC | . )*? '"'; 
fragment ESC 3® "I [lbtnrWh] ¥ 2 Nb Wt NANn 等 .ai 
匹配 并 丢弃 注释 
注释 LINE COMMENT : '//' .*? '\n' -> Skip ; 
COMMENT LD 
0 在 词法 分 析 器 中 匹配 空白 字符 并 丢弃 之 
全 明子 付 
WS ; [ \t\n\r]+ -> Skip ，; 


至 此 ， 我 们 已 经 知道 了 如 何以 一 份 样 例 输入 文件 为 监 本 构造 出 文法 规 
则 和 词法 规则 ， 这 就 为 下 一 章 的 实战 做 好 了 准备 。 在 继续 学 习 之 前 ， 
还 需要 记 住 重 要 的 两 点 。 第 一 ， 在 词法 规则 和 文法 规则 之 间 并 不 总 是 
存在 请 晰 的 界线 。 第 二 ， 我 们 应 当知 道 ，ANTLR 对 语法 规则 施加 了 一 
定 的 限制 。 


5.6 划 定 词法 分 析 器 和 语法 分 析 器 的 界线 


由 于 ANTLR 的 词法 规则 可 以 包含 递归 ， 从 技术 角度 上 看 ， 词 法 分 析 器 
变 得 和 语法 分 析 赂 一 样 强大 。 这 意味 着 我 们 可 以 甚至 可 以 在 词法 分 析 
妖 中 匹配 语法 结构 。 或 者 ， 男 外 一 种 极端 是 ， 我 们 可 以 把 字符 看 作词 
法 符号 ， 然 后 用 语法 分 析 器 来 分 析 字 符 流 的 语法 结构 (这 种 情况 称 为 
无 扫描 器 的 语法 分 析 器 (scannerless parser) ， 人 参阅 


code/extras/CSQL.g4， 匹 配 一 门 小 型 的 C 和 SQL 的 混合 语言 的 语法 ) 。 


划 定 词法 分 析 器 和 语法 分 析 絮 的 界线 位 置 不 仅 是 语言 的 职责 ， 更 是 语 
言 编写 的 应 用 程序 的 职责 。 笠 运 的 是 ， 我 们 可 以 得 到 一 些 经 验 法 则 的 


= 
日 和 于 


-在 词法 分 析 紫 中 匹配 并 丢弃 任何 语法 分 析 占 无 须知 明 的 东西 。 对 于 编 
程 语言 来 说 ， 要 识别 并 丢弃 的 束 古 类 似 注 释 和 空 日 字符 的 东西 。 否 


则 ， 语 法 分 析 器 就 需要 频繁 检查 它们 是 否 存 在 于 词法 符号 之 间 。 


由 词法 分 析 紫 来 匹配 类 似 标 识 答 、 关 键 子 、 了 字符 串 和 数 子 的 音 见 词法 
符号 。 语 法 分 析 器 的 层级 更 高 ， 所 以 我 们 不 应 当 让 它 处 理 将 数 子 组 合 
成 整数 这 样 的 事情 ， 这 会 加 重 它 的 负担 。 


.将 语法 分 析 需 无 须 区 分 的 词法 结构 归 为 同一 个 词法 符号 类 型 。 例 如 ， 
如 果 我 们 的 程序 对 竺 整数 和 浮 点 数 的 方式 是 一 致 的 ， 那 就 把 它们 都 归 
为 NUMBER 类 型 的 词法 符号 。 没 必要 传 给 语法 分 析 右 不 同 的 类 型 。 


-将 任何 语法 分 析 右 可 以 以 相同 方式 处 理 的 实体 归 为 一 类 。 例 如 ， 如 来 
语法 分 析 天 不 关心 XML 标签 的 内 容 ， 词 法 分 析 大 了 束 可 以 将 尖 括 号 中 的 
所 有 内 容 归 为 一 个 名 为 TAG 的 词法 符号 类 型 。 


- 另 一 方面 ， 如 果 语 法 分 析 器 需要 把 一 种 类 型 的 文本 拆 开 处 理 ， 那 么 词 
法 分 析 需 融 应 该 将 它 的 各 组 成 部 分 作为 独立 的 词法 符号 输送 给 语法 分 
析 器 。 例 如 ， 如 采 语 法 分 析 器 需要 处 理 IP 地 址 中 的 元 素 ， 那 么 词法 分 
析 器 就 应 该 把 IP 地 址 的 各 组 成 部 分 (整数 和 点 ， 作 为 独立 的 词法 符号 
送 入 语法 分 析 器 。 


当 我 们 议 语 法 分 析 需 无 须 区 分 特定 的 词法 结构 或 者 无 须 关 心 某 个 词法 
结构 的 内 容 时 ， 实 际 上 的 意思 是 我 们 编写 的 程序 不 关心 它们 。 我 们 编 
写 的 程序 对 这 些 词法 结构 进行 的 处 理 和 翻译 工作 与 语法 分 析 句 相同 。 


为 了 展示 最 终 的 程序 对 我 们 构建 词法 分 析 器 和 语法 分 析 器 过 程 的 影 

响 ， 想 象 一 个 场景 ， 我 们 在 处 理 一 个 网 络 服务 器 上 的 日 志文 件 ， 日 志 
文件 的 每 行 包含 一 条 记录 “。 我 们 将 逐渐 增加 程序 的 需求 ， 在 这 个 过 程 
中 分 析 词 法 分 析 器 和 语法 分 析 器 之 间 的 界线 是 如 何 移动 的 。 首 先 ， 假 
设 每 行 都 有 一 个 卫 地 址 、 一 个 HTTP 的 请 求 方法 ， 以 及 一 个 HTTP 的 状 
态 码 ， 下 面 是 简单 的 示例 : 


192.168.209.85 "GET /download/foo.html HTTP/1.0" 200 


我 们 的 大 脑 很 目 然 地 从 这 些 不 同 的 词法 元 和 聚 中 提取 出 了 信息 ， 不 过 ， 
如 琳 我 们 想 要 的 只 是 统计 文件 的 总 行 数 ， 我 们 整 可 以 名 略 除 换行 符 之 
Sh 


file : NL+; // 匹配 换行 符 序列 的 语法 分 析 器 
STUFF : ~'Iln'+ -> Skip ; // 除 '\n' 之 外 的 字符 全 部 丢弃 
NL J // 将 设 定 的 换行 符 返 回 给 语法 分 析 器 或 者 其 他 的 调用 者 


在 上 面 的 结构 中 ， 词 法 分 析 器 不 需要 识别 太 多 东西 ， 语 法 分 析 器 也 只 
需 匹 配 换 行 符 序列 (~x 运 算 符 匹 配 除 x 之 外 的 任何 字符 ) 。 


接 下 来 ， 我 们 增加 一 个 需求 :从 日 志文 件 中 提取 IP 地 址 的 列表 。 这 意 
味 着 我 们 需要 一 条 匹配 IP 地 址 的 词法 规则 ， 最 好 还 有 一 些 词法 规则 来 
匹配 一 行 记录 中 的 其 他 元 素 。 


IP : INT '.' INT '.' INT '.' INT ; // 192.168.209.85 

INT  : [0-9]+; // 匹配 IP 地 址 中 的 一 个 字 节 或 者 HTTP 的 状态 码 
STRING: '"， .,*k? '"' ;  // 匹配 HTTP 请 求 的 首 行 

NL » J // 匹配 一 行 记 录 的 终止 符 

WS :，' -> skip ;  // 忽略 空格 


使 用 上 面 这 些 完整 的 词法 符号 ， 我 们 就 可 以 构造 匹配 日 志文 件 中 全 首 
记录 的 文法 规则 了 。 


file : row+ ， // 匹配 日 志文 件 中 的 全 部 行 的 文法 规则 
row  ”: IP STRING INT NL ; ”// 匹配 日 志文 件 中 的 一 行 记录 


在 程序 的 后 续 处 理 中 ， 我 们 需要 将 文本 形式 的 地 址 转换 成 为 一 个 32 
位 的 整数 。 虽 然 我 们 可 以 将 整个 IP 地 址 传 给 语法 分 析 器 ， 令 其 使 用 类 
似 split ('') 的 方法 完成 处 理工 作 ， 但 是 更 好 的 做 法 是 ， 令 词法 分 析 器 
匹配 IP 地 址 这 种 词法 结构 ， 然 后 将 IP 地 址 中 的 每 个 组 成 部 分 当 作 单 独 的 


词法 符号 传递 给 语法 分 析 器 。 


file : row+ ; // 匹配 日 志文 件 中 的 全 部 行 的 文法 规则 
row  : ip STRING INT NL ; // 匹配 日 志文 件 中 的 一 行 记录 

ip : INT '.'， INT '.' INT '.' INT ; // 在 语法 分 析 器 中 匹配 IP 地 址 
INT  : [0-9]+; // 匹配 IP 地 址 中 的 一 个 字 节 或 者 HTTP 的 状态 码 
STRING: '"' .*? '"' ;  // 匹配 HTTP 请 求 的 首 行 

NL Se // 匹配 一 行 记录 的 终止 符 


WS :，'， -> skip ;  // 忽略 空格 


从 词法 规则 IP 转 换 到 文法 规则 ip 的 过 程 显示 了 ， 移 动词 法 分 析 骨 和 语法 
分 析 瑚 之 间 的 分 界线 这 件 事情 有 多 么 容易 (将 四 个 INT 词 法 符号 转换 为 
一 个 32 位 整数 需要 一 些 内 髓 在 语法 中 的 程序 代码 ， 我 们 还 没有 深入 探 
讨 过 这 种 机 制 ， 所 以 暂时 将 其 搁置 ) 。 


如 采 需 求 是 处 理 其 中 的 HTTP 请 求 首 行 的 内 容 ， 我 们 的 思维 过 程 与 之 相 
似 。 关 程序 无 须 理解 HTTP 请 求 首 行 中 各 部 分 的 内 容 ， 词 法 分 析 右 就 可 
以 将 整个 字符 串 当 作 一 个 词法 符号 传 给 语法 分 析 右 。 但 是 ， 奉 我 们 的 
程序 需要 取出 其 中 的 某 个 部 分 ， 那 么 最 好 先 让 词法 分 析 器 识别 出 这 些 


部 分 ， 然 后 将 它们 输送 给 语法 分 析 器 。 


用 不 了 多 久 ， 你 就 能 自如 地 根据 语言 规范 和 程序 的 需求 来 划分 这 条 界 
线 了 。 下 一 革 的 例子 将 会 帮助 你 牢记 本 市 中 的 经 验 法 则 。 之 后 ， 有 了 
这 样 的 坚实 基础 ， 我 们 就 能 在 第 12 章 中 处 理 一 些 环 手 的 问题 了 。 例 

如 ，Java 编 译 器 需要 在 忽略 Javadoc 注 释 的 同时 处 理 它 ， 在 XML 文件 

中 ， 标 签 内 外 的 词法 结构 不 一 致 。 


在 本 章 中 ， 我 们 学 习 了 如 何 根据 一 份 语言 的 样 例 代 码 或 者 文档 ， 来 构 
造 语 法 的 伪 代 码 ， 然 后 使 用 ANTLR 标 记 构造 出 一 个 正式 的 语法 。 我 们 
也 学 到 了 通用 的 语言 模式 : 序列 、 选 择 、 词 法 符号 依赖 和 内 套 结构 。 
在 词法 分 析 领 域 中 ， 我 们 了 解 了 最 利 见 的 词法 符号 的 实现 方法 : 标识 
符 、 数 字 、 字 符 串 、 注 释 ， 以 及 空 日 字符 。 现 在 ， 是 时 候 将 这 些 知 识 
应 用 于 实践 了 ， 我 们 将 会 莹 试 构造 一 些 真实 世界 中 语言 的 语法 。 


第 6 章 探索 真实 的 语法 世界 


在 上 一 章 中 ， 我 们 学 习 了 通用 的 词法 结构 和 语法 结构 ， 知 道 了 如 何 使 
用 ANTLR 语 法 来 表达 它们 。 现 在 ， 是 时 候 使 用 这 些 知 识 来 构造 真实 世 
界 的 语法 了 。 在 本 章 中 ， 我 们 的 主要 目标 是 学 习 如 何 通过 详细 阅读 参 
考 手册 、 样 例 代 码 和 已 有 的 非 ANTLR 语 法 来 构造 完整 的 语法 。 我 们 将 
会 循序 渐进 地 处 理 五 种 语言 。 束 现在 而 言 ， 你 不 需要 亲 力 亲 为 地 将 它 
们 全 部 构造 一 肖 ， 只 完成 你 熟悉 的 那些 即 可 。 在 未 来 的 实践 中 明 到 复 


杂 问 题 时 ， 欢 迎 随时 回来 查阅 本 章 。 除 此 之 外 ， 你 也 可 以 随时 回顾 上 
一 章 中 的 语法 模式 和 ANTLR 语 法 片段 。 


我 们 要 处 理 的 第 一 种 语言 是 电子 表格 程序 和 数据 库 经 党 使 用 的 逗号 分 
隅 符 (comma-separated-value，CSV) 文件 格式 。CSV 是 一 个 很 好 的 起 
扩 ， 因 为 它 人 简单 而 又 伞 广 沁 使 用 。 第 二 种 语言 也 是 一 种 数据 格式 ， 称 
为 JSON， 它 包含 骨 套 的 数据 元 杂 ， 从 而 能 够 让 我 们 通过 一 1 门 真正 的 语 
语 来 探索 递归 规则 的 应 用 。 


接 下 来 ， 我 们 要 研究 一 门 名 为 DOT 的 声明 式 语言 ， 这 种 语言 用 于 描述 
图 形 (网 络 ) 。 在 声明 式 语言 中 ， 我 们 并 非 通过 指定 控制 流 来 表达 光 
辑 结 构 。DOT 能 让 我 们 探索 更 加 复杂 的 词法 结构 ， 例 如 不 区 分 大 小 写 
的 关键 字 。 


我 们 研究 的 第 四 门 语 言 是 一 门 简单 的 非 面向 对 象 的 编程 语言 Cymbol 
(在 参考 文献 【Language Implementation Patterns[Par09]】 的 第 6 章 也 有 

讨论 ) 。 这 是 一 种 基于 原型 的 语言 ， 我 们 可 以 将 它 作 为 其 他 的 命令 式 

编程 语言 (包含 函数 、 变 量 、 语 句 和 表达 式 ) 的 参考 或 者 入 门 。 


最 后 ， 我 们 会 为 R 函 数 式 编程 语言 构造 一 个 语法 (函数 式 语言 通过 对 表 
达 式 求 值 来 完成 计算 工作 ) 。R 是 一 门 用 于 统计 学 的 编程 语言 ， 它 在 数 
据 分 析 领 域 的 应 用 日 趋 广 泛 。 我 挑选 R 语 言 作为 示例 是 因为 它 的 语法 主 


要 由 庞大 的 表达 式 规 则 组 成 。 这 是 一 个 好 机 会 ， 能 加 深 我 们 对 真实 语 
言 中 运算 符 优 和 级 和 绪 合 性 的 理解 。 


在 牢 牢 掌握 构造 语法 的 知识 之 后 ， 我 们 吏 可 以 在 识别 语言 的 基础 上 更 
进一步 处 理 语 言 的 内 部 逻辑 : 这 些 逻 辑 是 应 用 程序 遇 到 目 身 关心 的 输 
入 文本 时 触发 的 动作 。 在 下 一 半 中 ， 我 们 将 编写 语法 分 析 器 的 监听 
絮 ， 它 们 能 够 建立 相关 数据 结构 、 管 理 用 于 跟踪 变量 和 画 数 定义 的 符 
号 表 ， 以 及 执行 语言 的 翻译 工作 。 


我 们 的 学 习 将 从 CSV 文 件 语法 开始 。 


6.1 解析 CSV 文 件 


在 5.3 节 中 关于 序列 模式 的 内 容 中 ， 我 们 已 经 见 过 了 基本 的 CSV 语 法 ， 
现在 让 我 们 对 它 进 行 一 些 增强 ， 使 它 能 够 识别 标题 行 ， 并 且 人 允许 空 列 
存在 。 下 面 是 一 个 典型 的 输入 文件 : 


examples/data.csv 
Details,Month,Amount 

Mid Bonus,June,"$2,000" 
,January,"""zippo""" 
Total Bonuses,"","$5,000" 


可 以 看 到 ， 标 题 行 和 利 规 行 并 无 区 别 ， 我 们 只 是 将 其 中 的 列 当 作 列 的 
标题 。 为 了 从 中 提取 出 标题 行 ， 我 们 采用 的 方法 是 单独 匹配 它 ， 而 非 
使 用 row+ 匹 配 所 有 的 行 后 再 进行 筛选 。 这 样 做 的 原因 是 ， 当 需要 基于 


该 语法 构建 一 个 真正 的 应 用 程序 时 ， 我 们 可 能 会 希望 对 标题 行进 行 区 
别 对 待 。 采 用 这 种 方法 ， 我 们 就 能 对 CSV 文 件 的 第 一 行进 行 特殊 处 理 
了 。 下 面 是 语法 的 第 一 部 分 


examples/CSV.g4 
grammar CSV; 


file : hdr row+ ; 
hdr : row; 


为 避免 混淆， 我 们 引入 了 一 个 名 为 hdr 的 新 规则 。 虽 然 从 语法 角度 看 ， 
标题 行 只 是 一 个 常规 的 行 ， 但 是 ， 将 它 单独 区 分 出 来 ， 使 得 它 的 角色 
更 加 清晰 。 你 可 以 将 它 和 row+ 或 者 row row* 做 一 下 比较 ， 体 会 其 中 的 


过 异 。 


row 规 则 和 之 前 相同 : 一 列 由 逗号 分 隔 且 由 换行 符 终 止 的 字段 。 


examples/CSV.g4 
row : field (',' field)* '\r'? '\n' ; 


为 了 让 我 们 的 字段 定义 比 之 前 章节 更 加 有 灵活， 我 们 打算 允许 两 个 逗号 
之 间 出 现任 意 的 文本 、 字 符 串 ， 甚 至 什么 都 没有 。 


examples/CSV.g4 
field 
2 TEXT 
| STRING 
| 


TEXT 类 型 的 词法 符号 是 下 一 个 逗号 或 者 换行 符 之 前 的 任意 字符 序列 。 
字符 串 是 两 个 双 引 号 之 间 的 任意 字符 序列 。 下 面 是 两 个 我 们 之 前 用 到 


过 的 词法 符号 定义 : 


examples/CSV.g4 
TEXT : ~[,NnNr"J+ ; 
STRING : "(|~'"')* '"'， ;// 两 个 双 引 号 是 对 双 引 号 的 转 义 


为 了 允许 被 双 引 号 包围 的 字符 串 中 出 现 双 引号 ，CSV 格 式 通常 使 用 两 
个 双 引 号 来 转 义 。 这 就 是 STRING 规 则 的 子规 则 ("~") * 存 在 的 原 
。 我们 不 能 使 用 通配符 来 构造 非 贫 梦 循环 ("|.) *? ， 因 为 它 一 旦 
遇 到 在 字符 串 开始 之 后 的 第 一 个 "， 便 会 终止 匹配 过 程 。 类 似 "x""y" 的 
输入 殊 会 被 匹配 成 两 个 字符 串 ， 而 非 单 个 包 售 "" 的 字符 串 。 要 记 住 ， 非 
仙 梦 的 子规 则 是 在 保证 整个 父 规 则 匹配 成 功 的 前 提 下 ， 匹 配 数 量 尽 可 


能 少 的 字符 。 

在 测试 文法 规则 之 前 ， 让 我 们 先 看 一 下 词法 分 析 右 生成 的 词法 符号 
流 ， 以 保证 它 正 确 地 对 字符 流 进行 了 拆 解 。 用 grun 别 名 来 运行 
TestRig， 带 上 选项 -tokens， 得 到 如 下 所 示 的 输出 : 


过 $antlr4 CSV.g4 

今 $ javac CSV+*.java 

过 $ grun CSV file -tokens data.csv 

《 [@0,0:6='Details',<4>,1:0] 
[@L.7s 7 1s, 137] 
[@2,8:12='Month' ,<4>,1:8] 
[@3, 173,13=", "<1>,1: 13] 
[@4,14:19='Amount' ,<4>,1:14] 
[@5,20:20="\n' ,<2>,1:20] 
[@6,21:29='Mid Bonus',<4>,2:0] 
I@7;:30%30=" ; ;<1s;279] 
[@8,31:34='June' ,<4>,2:10] 
[O03535=" ,nelsr2:14] 
[@10,36:43=' "$2,000"',<5>,2:15] 
[@LL .A444 NT <25> .2523] 
[12 A5 td5= ,els .30] 
[@13,46:52='January' ,<4>,3:1] 


从 这 些 词法 符号 看 来 ， 一 切 顺 利 。 输 出 的 标点 符号 、 文 本、 字符 串 都 
和 预期 结果 一 致 。 


现在 ， 看 一 下 我 们 的 语法 是 如 何 从 输入 的 词法 符号 流 中 识别 出 语法 结 
构 的 。 使 用 -tree 选 项 ， 测 试 组 件 束 能 够 以 文本 形式 打印 出 语法 分 析 树 
(为 阅读 方便 ， 进 行 了 一 些 整 理 ) 。 


过 $ grun CSV file -tree data.csv 
《 (file 
(hdr (row (field Details) , (field Month) , (field Amount) \n)) 
(row (field Mid Bonus) , (field June) , (field "$2,000") \n) 
(row field , (field January) , (field """zippo""") \n) 
(row (field Total Bonuses) , (field "") ,， (field "$5,000") \n) 
) 


其 中 根 志 点 代表 了 起 始 规则 file 匹 配 到 的 语法 结构 。 它 有 者 干 个 代表 数 
据 行 的 子 方 点， 且 以 标题 行为 上 。 这 棵 语法 分 析 树 的 外 观 如 图 6-1 所 示 
(通过 -ps file.ps 选 项 获取 ) 。 


file 


har row Tow row 
row field 7 field , field m field ”field , fied 'n field ”field , field \n 
field , field , field Nm Mid Bonus June "$2,000" January ""zippo"™" Total Bonuses " "$5,000" 


图 6-1 语法 分 析 树 外 观 
因为 简单 ，CSV 是 一 种 很 好 的 数据 存储 格式 。 不 过 ， 如 果 我 们 需要 在 


一 个 字段 中 存储 多 个 值 ， 它 就 无 能 为 力 了 。 对 于 这 种 情况 ， 我 们 需要 
一 种 允许 舱 套 元 系 的 数据 格式 。 


6.2 解析 JSON 


JSON 走 一 种 存储 键 值 对 的 数据 格式 ， 由 于 值 本 身 也 可 以 作为 键 值 对 的 
容器 ，JSON 中 可 以 包含 内 套 结构 。 设 计 一 个 用 于 JSON 的 语法 分 析 器 让 
我 们 有 机 会 基于 一 门 语言 的 参考 手册 设计 语法 ， 并 处 理 更 加 复杂 的 词 
法 规则 。 为 了 使 说 明 更 加 形象 ， 下 面 是 一 个 简单 的 JSON 数 据 文 件 : 


examples/t.json 


"antlr.org": { 
"owners" : [], 
"live" : true, 
"speed" : le100， 
"menus" : ["File", "Help\nMenu"] 


我 们 的 目标 是 通过 阅读 JSON 参 考 手册 、 查 看 它 的 语法 描述 图 和 现 有 的 
语法 来 构造 一 个 能 够 解析 JSON 的 ANTLR 语 法 。 我 们 将 从 JSON 参 考 手 
册 中 提取 关键 词汇 ， 然 后 一 步 步 将 它们 编写 成 ANTLR 规 则 。 这 个 过 程 
从 语法 结构 开始 。 


1.JSON 的 语法 规则 


JSON 语 法 指明 ， 一 个 JSON 文 件 可 以 是 一 个 对 象 ， 或 者 是 一 个 由 若干 个 
值 组 成 的 数组 。 从 语法 上 看 ， 这 不 过 是 一 个 选择 模式 ， 因 此 ， 我 们 可 
以 用 下 列 规则 来 表达 : 


examples/JSON.g4 


json: object 
| array 
下 一 步 是 将 json 规 则 引用 的 各 个 子规 则 进行 分 解 。 对 于 对 象 ，JSON 语 
法 是 这 样 规 定 的 : 


一 个 对 象 是 一 组 无 序 的 键 值 对 集合 。 一 个 对 象 以 一 个 左 伦 括号 ({) 开 
始 ， 且 以 一 个 右 花 括 号 〈}) 结束 。 每 个 键 后 跟 一 个 冒号 〈: ) ， 键 值 
对 之 间 由 逗号 分 隔 〈，) 。 


JSON 官 方 网 站 上 的 语法 图 强调 对 象 中 的 键 必须 是 子 符 串 。 


为 将 上 面 这 一 段 自然 语言 的 表述 转换 为 语法 结构 ， 我 们 试 着 将 它 分 
解 ， 从 中 提取 关键 的 、 能 够 指示 采用 何 种 模式 的 词组 。 第 一 句 话 中 


的 “一 个 对 象征 ?明确 地 告诉 我 们 创建 一 个 名 为 object 的 规则 。 接 着 , “一 
组 无 序 的 键 值 对 集合 ”实际 上 如 是 看 干 个 “对 ”组 成 的 序列 。“ 无 序 的 集 
合 ” 指 明了 对 象 的 链 的 语义 ， 即 键 的 顺序 没有 意义 。 这 意味 着 ， 在 语法 
分 析 的 过 程 中 ， 我 们 可 以 将 它 当 作 传 统 的 键 值 对 列表 来 匹配 。 


第 二 个 句子 引入 了 一 个 词法 符号 依赖 ， 因 为 一 个 对 象 是 以 左右 花 括 号 
作为 开始 和 结束 的 。 最 后 一 个 句子 进一步 指明 了 链 值 对 序列 的 细 市 : 
由 如 号 分 隔 。 至 此 ， 我 们 可 以 得 到 下 列 ANTLR 标 记 编 写 的 语法 : 


examples/JSON.g4 
object 

: '{" pair ("Dalr)* 
| '{' '}' // 空 对 象 


pair: STRING ':' value ; 


出 于 让 语法 清晰 、 减 少 重复 代码 的 目的 ， 最 好 将 链 值 对 拆 分 为 单独 的 
规则 。 否 则 ， 上 壕 语 法 就 变 成 了 : 


object : '{' STRING ':' value (',' STRING ';' value)* ') | ... 


注意 ， 在 其 中 我 们 将 STRING 当 作 一 个 词法 符号 ， 而 非 语法 规则 。 这 是 
因为 ， 通 常情 况 下 ， 一 个 读 取 JSON 的 程序 期 望 将 字符 串 作 为 完整 的 实 
体 处 理 ， 而 非 字 符 序 列 。 这 是 我 们 在 5.6 节 中 提 及 的 经 验 法 则 ， 字 符 串 
应 该 被 当 作 词法 符号 处 理 。 


JSON 的 语法 参考 中 还 包括 一 些 非 正 式 的 语法 规则 ， 让 我 们 来 看 看 它 和 
ANTLR 规 则 有 何 差 异 。 下 列 语法 摘自 JSON 语 法 参考 : 


object 

{} 

{ members } 
members 

pair 

pair , members 


pair 
string : value 


和 我 们 的 规则 一 样 ， 该 语法 规则 也 将 pair 规 则 单独 拆 了 出 来 ， 不 过 
包含 一 个 我 们 没有 的 规则 members。 这 是 一 种 不 使 用 (...) * 循 环 来 表 
达 序 列 模式 的 方式 ， 详 见 下 面 的 “循环 vs. 尾 递归 ”。 


对 于 JSON 中 的 另外 一 种 高 级 


， 语 法 参考 搬 述 如 下 : 


数组 是 一 组 值 的 有 序 集合 。 一 个 数组 由 一 个 左 方 括号 开始 (0 ， 由 一 
个 右 方 括号 (]) 结束 。 其 中 的 值 由 逗号 (，) 分 隔 。 


和 object 规 则 一 样 ，array 包 含 一 个 由 逗号 分 阳 的 序列 模式 和 一 个 左右 方 
括号 间 的 词法 符号 依赖 。 


examples/JSON.g4 
array 

- '[' value (',' value)* ']' 
| “"[" ']'" // 空 数组 


在 上 述 规 则 的 基础 上 进一步 细 化 ， 我 们 就 需要 编写 规则 value， 通 过 
JSON 语 法 参考 中 的 揪 述 我 们 可 以 知道 ， 它 古 一 个 选择 模式 。 


一 个 值 可 以 是 一 个 双 引 号 包围 的 字符 串 、 一 个 数字 、true/false、nul 、 
一 个 对 象 ， 或 者 一 个 数组 。 这 些 结 构 中 可 能 发 生 骸 套 。 


循环 vs. 尾 递归 


JSON 参 考 手 册 中 的 members 规 则 看 上 去 非 肖 奇怪 ， 因 为 它 很 难 用 目 然 
语言 描述 : 在 pair 规 则 和 pair 后 紧 接 痢 目 号 的 规则 中 做 出 选择 。 


members 
pair 
pair , members 
其 中 缘由 在 于 ，ANTLR 文 持 扩 展 巴 克 斯 -诺尔 范式 (EBNF) 语法 ， 而 
JSON 参 考 手册 中 直接 使 用 了 巴克 斯 -诺尔 范式 (BNF) 。BNF 不 文 持 类 
似 《...) * 的 循环 ， 因 此 ， 它 们 使 用 了 尾 递归 〈 某 个 规则 在 最 后 一 个 备 
选 分 文 的 最 后 一 个 元 素 中 调用 了 目 喘 ) 来 对 循环 进行 模拟 。 


为 了 展示 这 种 尾 递归 规则 和 目 然 语言 表述 之 间 的 关系 ， 下 面 是 members 
规则 浅 生 出 的 一 个 、 两 个 和 三 个 pair 的 规则 : 


members => pair 


members => pair ，members 
=> pair , pair 


members => pair , members 
=> pair , pair , members 
=> pair , pair , pair 


这 再 次 论证 了 5.2 市 中 提 及 的 警告 ,将 现 有 的 语法 当 作 指南 ， 而 非 圣 


经 。 


其 中 ,“ 换 套 ” 这 个 术语 指明 需要 使 用 柳 套 模式 ， 因 此 ， 我 们 知道 ， 
value 规 则 中 会 包含 对 递归 规则 的 引用 。 使 用 ANTLR 标 记 编 写 的 value 规 
则 如 下 所 示 。 


examples/JSON.g4 

value 
E STRING 
NUMBER 


| 

| “object // 递归 调用 
| array  // 递归 调用 
| 'true' // 关键 字 
| 

| 


False' 
本 


由 于 value 规 则 引用 了 object 和 array， 它 成 为 〈 间 接 ) 递归 规则 。 通 过 
value 调 用 二 者 中 的 任 一 ， 最 终 都 会 回 到 value 规 则 。 


value 规 则 使 用 字符 串 常 量 来 匹配 JSON 中 的 关键 字 。 出 于 和 字符 串 相 同 
的 原因 ， 我 们 也 把 数字 当 作词 法 符号 处 理 : 程序 通常 认为 数字 是 完整 
的 实体 。 


这 束 是 解析 JSON 的 语法 规则 。 至 此 ， 我 们 已 经 完全 确定 了 JSON 文 件 的 
结构 ， 图 6-2 展 示 出 我 们 的 语法 十 如 何 解 析 之 前 的 那 份 样 例 输 入 的 。 


当然 ， 因 为 缺少 词法 分 析 器 的 相关 规则 ， 我 们 现在 还 无 法 通过 程序 来 
获取 这 幅 图 。 我 们 还 需要 为 两 种 关键 的 词法 符号 编写 规则 : STRING 和 
NUMBER 。 


2.JSON 词 法 规则 
根据 JSON 语 法 参考 ， 字 符 串 定义 如 下 : 


一 个 字符 串 就 是 一 个 由 零 个 或 多 个 Unicode 字 符 组 成 的 序列 ， 它 由 双 引 
号 包围 ， 其 中 的 字符 使 用 反 斜 杠 转 义 。 单 个 字符 由 长 度 为 1 的 字符 串 来 
表示 。 字 符 串 和 C/Java 中 的 字符 串 非 常 相似 。 


json 


object 


{ element } 


"antlr.org"” : value 
| 
object 
{ element element element element } 
"owners" : value "live"” : value "speed" : value "menus" : value 
| | 
array true 1e100 array 


A 


[ ] [ value ，value ] 


"File” "HelpnMenu" 


图 6-2 ”语法 解析 示例 


前 已 述 及 ， 大 多 数 语言 中 的 字符 串 都 是 非常 相似 的 。JSON 中 的 字符 串 
和 我 们 在 5.5 市 的 “匹配 字符 串 常 量 * 中 讨论 过 的 字符 串 非 常 相似 ， 只 不 
过 JSON 增 加 了 对 Unicode 字 符 的 转 义 。 碍 看 JSON 语 法 参考 ， 我 们 可 以 
发 现 它 对 字符 串 的 描述 是 不 完备 的 。 语 法 参考 中 的 描述 如 下 : 


char 


任意 除 " 字符 、\ 字符 以 及 控制 字符 之 外 的 Unicode 字符 


\t 
Nu 由 4 位 十 六 进 制 表示 的 数字 


其 中 指明 了 需要 被 转 义 的 字符 ， 并 且 指 明了 我 们 应 当 匹 配 任意 除 双 引 
号 和 反 斜 杠 之 外 的 字符 。 我 们 可 以 通过 “ 反 向 选择 序列 *~["\J 来 满足 这 
个 要 求 (~ 操作 符 的 意思 是 “ 非 ”) 。 我 们 的 STRING 定 义 如 下 所 示 : 


examples/JSON.g4 
STRING 3 *“*» (ESG | = WI su" 


ESC 规 则 匹配 一 个 Unicode 序 列 或 者 预定 义 的 转 义 字符 。 


examples/JSON.g4 

fragment ESC : ("Vbfnrt] | UNICODE) ; 

fragment UNICODE : 'u' HEX HEX HEX HEX ; 

fragment HEX : [0-9a-fA-F] ; 

在 UNICODE 规 则 中 ， 我 们 定义 了 一 个 HEX 片 段 规则 作为 简写 ， 来 代替 
需要 多 次 重复 的 十 六 进 制 数字 (以 fagment 开 头 的 规则 只 能 被 其 他 的 词 


法 分 析 器 规则 使 用 ， 它 们 并 不 是 词法 符号 ) 。 


后 一 个 需要 编写 的 词法 符号 是 NUMBER 。JSON 语 法 参考 对 其 定义 如 


才 部 


一 个 数字 和 Cava 中 的 数字 非 间 相似， 除了 一 点 之 外 : 不 允许 使 用 八 进 
制 和 十 六 进 制 格式 。 


JSON 语 法 参考 中 对 数字 的 换 述 稍 显 复杂 ， 我 们 可 以 将 它 整理 成 三 个 主 
要 的 备 选 分 文 。 


examples/JSON.g4 
NUMBER 
: '-'? INT '.' INT EXP? XI 了 :3357 L135E=-9. 053; 453 
| '-'? INT EXP // Je10 -3e4 
| 1? INT // -3, 45 
fragment INT : '0' | [1-9] [0-9]* ; // 除 0 外 的 数字 不 允许 以 0 开始 
fragment EXP : [Ee] [+\-]? INT ; //\- 是 对 -的 转 义 ,因为 [...] 中 的 - 用 于 表达 “范围 语义 


同样 ， 厂 段 规 则 INT 和 EXP 减 少 了 重复 代码 ， 使 语法 可 读 性 更 强 。 


根据 JSON 语 法 参考 ， 我 们 知道 ，INT 不 应 当 匹 配 除 0 之 外 的 以 0 开头 的 
数字 。 
int 

digit 

digit1-9 digits 

- digit 

- digit1-9 digits 


我 们 在 NUMBER 规 则 中 处 理 负 号 ， 这 样 ， 我 们 就 能 将 精力 集中 于 前 两 
个 备 选 分 支 : digit 和 digit1-9 digits。 前 者 匹配 任意 的 单个 数字 ， 所 以 0 
是 可 行 的 。 后 者 匹配 以 1 到 9， 即 除 0 之 外 开头 的 数字 。 


和 上 一 节 中 的 CSV 语 法 不 同 的 是 ，JSON 语 法 需要 额外 处 理 空白 字符 。 


在 任意 两 个 词法 符号 之 间 ， 可 以 存在 任意 多 的 空白 字符 。 


这 避 是 空白 字符 的 典型 含义 ， 所 以 我 们 可 以 复 用 上 一 章 末尾 的 “入 门 专 
用 词法 规则 ”。 


examples/JSON.g4 
WS : [ \t\n\r]+ -> Skip ; 


现在 ， 解 析 JSON 的 词法 规则 和 语法 规则 都 已 就 纵 ， 我 们 可 以 将 它们 付 
诸 实 践 了 。 蛙 和 完 ， 我 们 来 打印 输入 文本 [1，"\u0049"，1.3e9] 中 的 词法 


$antlr4 JSON.g4 

$$ javac JSON*.java 

过 $ grun JSON json -tokens 

过 [1,"\u0049",1.3e9] 

= Eor 

《 [@0,0:0='[',<5>,1:0] 
[@1,1:1="'1" ,<11>,1:1] 


[@2,2:2="',' ,<4>,1:2] 
[@3,3:10='"\u0049"' ,<10>,1:3] 
[@4,11:11=',',<4>,1:11] 


[@5,12:16='1.3e9' ,<11>,1:12] 
L[@6717317=" 1] ,<1>,1317] 
[@7, 19:18='<EOF>' ,<-1>,2:0] 


我 们 的 词法 分 析 器 将 输入 流 处 理 成 了 正确 的 词法 符号 流 ， 因 此 我 们 可 
以 进一步 测试 语法 规则 了 。 
过 $ grun JSON json -tree 


过 [1,"\u0049",1.3e9] 


》 Eor 
《 (json (array [ (value 1) , (value "\u0049") ,， (value 1.3e9) ])) 


语法 分 析 的 结果 显示 ， 词 法 符号 流 被 正确 地 解析 成 了 三 个 值 ， 看 上 去 
一 切 顺 利 。 对 于 更 复杂 的 语法 ， 我 们 可 能 会 使 用 许多 输入 文件 来 验证 
其 正确 性 。 


至 此 ， 我 们 已 经 为 两 种 数据 存储 语言 (CSV 和 JSON) 编写 了 语法 ， 下 
面 让 我 们 进一步 讨论 一 门 名 为 DOT 的 语言 ， 它 的 语法 更 加 复杂 和 来 
手 ， 并 且 引 入 了 一 种 新 的 词法 模式 : 不 区 分 大 小 写 的 关键 字 。 


6.3 解析 DOT 语 言 


DOT 征 一 门 声明 式 编 程 语言 ， 主 要 用 于 摘 述 网 络 岁 、 树 或 者 状态 机 之 
类 的 图 形 (DOT 是 声明 式 语言 的 原因 是 ， 我 们 描述 的 古 图 形 及 图 形 间 
的 连接 是 什么 ， 而 非 构造 图 形 的 过 程 ) 。 它 是 一 种 应 用 广泛 的 图 形 工 
具 ， 尤 其 是 在 你 的 程序 需要 生成 图 形 时 。 例 如 ，ANTLR 的 -atn 选 项 就 
使 用 DOT 来 产生 可 视 化 的 状态 机 。 


为 了 能 快速 熟悉 这 | 语言 ， 假 设 我 们 需要 将 一 个 程序 的 四 个 函数 间 的 
调用 关系 可 视 化 。 我 们 可 以 手工 画 出 来 ， 或 者 使 用 下 面 的 DOT 代 码 来 
指定 它们 之 间 的 关系 (这些 DOT 代 码 可 以 手写 或 者 编写 一 个 源 代码 分 
析 工 具 来 自动 生成 ) : 


examples/t.dot 


digraph G { 
rankdir=LR; 
main [shape=box],; 
main -> f -> g; // main 调用 f，f 调用 g 
f -> f [style=dotted] ; // 于 是 递归 的 
下 = hs // 和 调用 了 hh 


图 6-3 就 是 使 用 DOT 可 视 化 工具 graphviz 生 成 的 结果 图 。 


图 6-3 ”使 用 DOT 可 视 化 工具 生成 的 结果 图 


幸运 的 是 ，DOT 语 法 指南 中 包含 了 几乎 可 以 直接 使 用 的 句法 规则 ， 我 
们 所 需 的 仅仅 是 将 它们 翻译 为 ANTLR 语 法 。 不 幸 的 是 ， 我 们 需要 自行 
编写 词法 规则 。 搂 下 来 ， 我 们 必须 通过 阅读 文档 和 一 些 范例 代码 来 完 
成 全 部 规则 的 编写 ， 为 简单 起 见 ， 我 们 从 语法 规则 开始 。 


1.DOT 语 言 的 语法 规则 


下 面 十 将 DOT 语 言 参 考 文档 翻 详 为 ANTLR 标 记 的 结 


examples/DOT.g4 


graph : STRICT? (GRAPH | DIGRAPH) id? 'f' 
stmt list l ("stmnt. ev 
stmt : node stmt 
| edge stmt 
| attr stmt 
| id '=' id 
| subgraph 
attr_stmt LE (GRAPH | NODE | EDGE) attr List ; 
attr list ('[' a list? 'J')+ ; 
a list (id ('=' id)? ','?)+; 
edge stmt (node id | subgraph) edgeRHS attr List? ; 
edgeRHS ( edgeop (node id | subgraph) )+ ; 
edgeop > | '--',，; 
node_stmt node id attr list? ， 
node id id port? ; 
port id ("3 dg)? 3 
subgraph (SUBGRAPH id?)? '{' stmt list '} 
Id 2 ID 
| STRING 
| HTML STRING 
| -NUMBER 


我 们 所 做 的 唯一 修改 古 port 规 则 。 参 考 文档 中 给 出 的 规则 如 下 : 


port: 
| 


“a TD |. 


' compass pt ] 
:'" Compass pt 


compass pt 


(n | ne |e|se|s|sw |w | nw) 


stmt list '}' 


如 果 方 位 点 (compass point) 是 一 个 关键 字 ， 即 不 能 作为 合法 的 标识 


伯 ， 那 么 上 述 规则 整 能 够 补正 营 使 用 
改变 了 该 语法 的 含义 。 


。 然而， 参考 文档 中 给 出 的 说 明 


注意 ， 合 法 的 方位 点 的 值 并 非 关 键 字 ， 因 此 这 些 字 符 吕 可 被 用 于 任何 
常规 标识 符 能 够 出 现 的 地 方 。 


这 意味 着 我 们 必须 接受 类 似 n->sw 这 样 的 极端 情况 ， 其 中 n 和 sw 都 不 是 

天 键 字 ， 而 是 标识 符 。 人 参考 文档 接着 指出 : “..…. 反 之 ， 语 法 分 析 郁 接受 
任意 标识 符 ”。 这 句 话 的 含义 不 是 非常 清楚 ， 似 乎 是 语法 分 析 器 允许 任 
意 标 识 符 作 为 方位 点 。 如 果 这 种 猜测 成 立 的 话 ， 我 们 在 语法 中 就 完全 

无 须 担 心 方位 点 的 问题 ， 我 们 可 以 用 id 巷 换 挥 参考 文档 中 的 compass_pt 
规则 。 


port: “a 1d (vs™ Td)7 


为 确认 这 一 点 ， 最 好 使 用 一 个 DOT 语 言 查看 器 来 验证 我 们 的 假设 ， 例 
如 Graphviz 网 站 上 提供 的 工具 。 经 验证 ， 下 列 图 定义 能 被 正确 无 误 地 识 
别 ， 因 此 我 们 的 port 规 则 是 正确 的 。 


digraph G{n -> sw; } 


至 此 ， 我 们 拥有 了 全 部 的 语法 规则 。 假 定 我 们 已 经 完成 了 全 部 的 词法 
符号 定义 ， 让 我 们 看 一 看 根据 上 文 样 例 输入 t.dot 生 成 的 语法 分 析 树 (使 
用 grun DOT graph-gui t.dot 命 令 ) ， 如 图 6-4 所 示 。 


现在 ， 让 我 们 来 壬 试 定义 这 些 词法 符号 。 


2.DOT 语 言 的 词法 规则 


由 于 DOT 语 言 参考 指南 没有 给 出 正式 的 词法 规则 ， 我 们 惑 需要 根据 其 
中 的 描述 来 生成 它们 。 不 妨 从 最 简单 的 关键 字 开 始 。 


graph 
WE i 
G stmt 一 本 
这 EF id a edge_ stmt edge_stmt edge_stmt 
rankdir LR node_id attr list 人 edgeAHs od doefHe 和 attr_list node_id edgeRHS 


id [ a list ] id edgeop node_id edgeop node_id id edgeop node id [ a list ] id edgeop node_id 


main id = 记 main -> id > id f > id id = id f > id 


shape box f g E style dotted h 
图 6-4 输入 tdot 生 成 的 语法 分 析 树 


参考 文档 指出 ,， “关键 字 node、edge、graph、digraph、subgraph， 以 及 
strict 是 不 区 分 大 小 写 的 ”。 如 果 它 们 区 分 大 小 写 ， 我 们 就 可 以 在 语法 中 
简单 地 使 用 类 似 mode' 的 字符 串 常 量 。 为 了 能 够 识别 nOdE 这 样 的 变 体 ， 
我 们 需要 在 关键 字 的 词法 规则 中 为 每 个 字符 分 别 指定 大 小 写 的 形式 。 


examples/DOT.g4 

STRICT : [Ss] [Tt] [Rr][Ii][Cc] [Tt] ; 

GRAPH ] [Gg] [Rr][Aal[Pp][Hh] ; 

DIGRAPH L [Dd] [Ii][Gg] [Rr][Aal[lPp][Hh] ; 
NODE 8 [Nn][0o][Dd][Ee] ; 

EDGE : [Ee] [Dd][Gg][Ee] ; 

SUBGRAPH p [Ss][Uu][Bb][Gg] [Rr][Aal[Pp][Hh] ; 


DOT 语 言 中 的 标识 竺 和 其 他 编程 语言 相似 。 


任意 由 字母 表 中 的 字符 〈[a-zA-Z\200-\377]) 、 下 划 线 (_') 或 数字 
([0-9]) 组 成 的 ， 不 以 数字 开头 的 字符 串 。 


八进制 的 数字 范围 200\377 用 十 六 进 制 来 表示 是 80 到 任 ， 因 此 我 们 的 ID 
规则 如 下 : 


examples/DOT.g4 

ID : LETTER (LETTER|DIGIT)*; 
fragment 

LETTER . [a-zA-Z\u0080-\uQQOFF ] ; 


我 们 定义 了 一 个 辅助 规则 DIGIT 来 匹配 数字 。 参 考 文 档 指 出 ， 数 字 遵 循 
下 到 正则 未 忆 式 ， 


[1 ?189 | LO-9] + (10-9]*)? ) 


使 用 DIGIT 巷 换 其 中 的 [0-9]， 我 们 整 得 到 了 用 ANTLR 标 记 编 写 的 、 代 
表 DOT 语 言 中 的 数 子 的 规则 ， 如 下 : 


examples/DOT.g4 


NUMBER : ="'? ('." DIGIT+ | DIGIT+ ('." DIGIT*)? ) ; 
fragment 
DIGIT : [0-9] ， 


DOT 语 言 中 的 字符 串 定 义 较为 基础 。 


任意 的 由 双 引 号 包围 的 字符 序列 ("...") ， 可 能 包括 转 义 后 的 双 引 号 
\"o 


我 们 使 用 点 通配符 来 匹配 字符 串 中 的 任意 字符 ， 直 到 遇见 最 后 的 双 引 
号 为 止 。 额 外 地 ， 我 们 将 转 义 后 的 双 引 号 作为 子规 则 循环 中 的 一 个 备 
] 玫 让 对 


examples/DOT.g4 
STRING : tu CMe sD) 


DOT 语 言 中 还 包含 一 种 名 为 HIML 字 符 串 的 元 素 ， 据 我 所 知 ， 它 和 字 
符 串 非 第 相似 ， 唯 一 的 差异 在 于 它 使 用 尖 括 号 而 不 十 双 3 引号。 参考 文 
档 中 使 用 <...> 来 表示 这 种 元 素 ， 摘 述 如 下 : 


在 HTML 字 符 串 中 ， 尖 括号 必须 成 对 出 现 ， 其 中 可 以 包含 未 转 义 的 换行 
符 。 除 此 之 外 ，HTML 字 符 串 的 内 容 必 须 是 合法 的 XML ， 这 就 要 求 某 
些 特殊 字符 ("、&、< 以 及 >) 需要 被 转 义 ， 以 便 骨 入 XML 标签 的 属性 
或 者 文本 中 。 


上 面 的 描述 告诉 了 我 们 需要 完成 的 工作 ， 但 是 没有 回答 这 一 问题 : 我 
们 是 否 可 以 在 HIML 注 释 中 包含 >。 另 外 ， 它 似乎 暗示 了 我 们 需要 将 标 
签 序列 放 入 尖 括 号 中 ， 类 似 <<i>hi</i>>。 经 DOT 查 看 器 试验 ， 我 们 的 
猜测 是 正确 的 。 从 试验 的 结果 看 ，DOT 语 言 能 够 接受 一 对 尖 括 号 中 的 
任意 文本 ， 只 要 这 对 尖 括 号 是 配对 的 。 因 此 ，HTML 注 释 中 的 > 不 会 被 
像 XML 解 析 器 那样 的 处 理 方式 包 略 ， 即 HIML 字 符 串 <foo<! --ksjdf>-- 
>> 会 被 当 作 字符 串 "foo<! --ksjdf>-->" 处 理 。 


我 们 可 以 使 用 ANTLR 结 构 '<'.*? '>' 来 匹配 两 个 尖 括 号 之 间 的 任意 文 

本 。 不 过 ， 这 个 规则 不 允许 其 中 出 现 舱 套 的 尖 括 号 ， 因 为 它 会 把 第 一 
个 > 和 第 一 个 < 配对 ， 而 不 是 我 们 期 望 的 最 近 的 <。 下 列 规则 能 够 达到 预 
期 效果 : 


examples/DOT.g4 
/#* "在 HTML 字符 串 中 ， 尖 括号 必须 成 对 出 现 ， 其 中 可 以 
* 包含 未 转 义 的 换行 符 。" 


HTML_STRING : 5 (TAGI=[<s])* DS ; 
fragment 
TAG E bey BP Ml 


其 中 的 HTML_STRING 规 则 允许 TAG 元 素 出 现在 配对 的 尖 括 号 之 间 ， 
这 样 束 实 现 了 一 层 的 敬 套 。~[<>] 负 贡 匹 配 类 似 “&lt”， 的 XML 了 字符 实 
体 。 它 匹配 除 左右 尖 括号 外 的 任何 字符 。 在 这 里 ， 我 们 不 能 使 用 通 配 
从 和 非 贷 梦 匹配 循环 ， 这 是 因为 ， 奉 循环 中 的 通配符 能 够 匹配 

<foo,， “TAGI|.) *? ”就 能 匹配 类 似 <<foo> 的 无 效 输入 。 即 ， 如 果 使 用 
了 通 配 行 ，HTML_STRING 无 须 调用 匹配 标 位 元素 的 TAG 规 则 就 能 完 
成 匹配 ， 也 就 无 法 得 到 我 们 期 望 的 结果 。 


你 可 能 已 经 跃跃欲试 ， 想 到 使 用 下 面 的 递归 来 匹配 尖 括 号 了 : 


HTML_STRING : '<' (HTML STRING|~[<>])* '>' ，; 


但 是 ， 这 个 规则 匹配 的 是 藤 套 标签 ， 而 非 将 开始 和 线束 的 尖 括 号 进行 
正确 配对 。 一 个 髓 套 的 标签 类 似 <<i<br>>>， 这 是 我 们 所 不 希望 看 到 


I。 


DOT 语 言 的 最 后 一 种 词法 结构 是 我 们 之 前 从 未 见 过 的 。DOT 语 言 匹配 
并 丢弃 以 # 开 头 的 行 ， 它 认为 那 是 C 语 言 的 预 处 理 器 的 输出 。 我 们 可 以 
用 与 之 前 类 似 的 单行 注释 的 方法 来 处 理 它们 。 


examples/DOT.g4 
PREPROC : '#' .*? '\n' -> Skip ，; 


这 殊 是 DOT 语 言 的 全 部 语法 (虽然 其 中 有 些 规则 我 们 还 不 十 分 熟 
悉 ) 。 我 们 成 功 地 编写 了 第 一 门 复杂 语言 的 语法 ! 在 本 节 中 ， 除 了 更 
加 复杂 的 词法 结构 和 语法 结构 ， 还 有 一 个 重点 需要 强调 : 要 想 揭 开 一 
门 语言 的 神秘 面纱 ， 我 们 需要 分 析 不 同 来 源 的 信息 。 语 言 的 规模 越 
大 ， 我 们 需要 的 参考 文档 和 各 式 各 样 的 范例 代码 就 越 多 。 有 了 时候 ， 只 
有 设法 对 语言 现 有 的 实现 进行 试探 ， 才 能 发 现 边 界 情 总。 语言 的 参考 
文档 通常 并 非 一 目 了 然 。 


此 外 ， 我 们 必须 决定 语法 分 析 过 程 分 解 为 哪些 步 又 ， 以 及 在 每 个 步 又 
中 ， 哪 些 部 分 可 以 暂时 搁置 ， 留 行 后 续 处 理 。 提 及 的 这 些 要 点 的 例子 
如 ， 我 们 将 特殊 的 方位 点 ne 和 sw 当 作 普通 标识 符 ， 以 此 来 测试 解析 天 
的 结 末 。 双 如， 我 们 编写 语法 时 ， 并 不 理解 <.…> 中 的 HIML 字 符 串 的 合 
义 。 一 个 DOT 语 言 的 完整 实现 最 终 需 要 验证 并 处 理 这 些 元 素 ， 但 是 语 
法 分 析 絮 可 以 仅仅 将 他 们 当 作 数 据 块 来 处 理 。 


现在 ， 是 时 候 处 理 一 些 编程 语言 了 。 下 一 节 中 ， 我 们 将 会 为 传统 的 、 
类 似 C 语 言 的 命令 式 编 程 语言 编写 语法 。 之 后 ， 我 们 将 接受 一 个 迄今 为 
止 最 大 的 挑战 : 处 理 函 数 式 编程 语言 R。 


6.4 解析 Cymbol 语 言 


接 下 来 ， 我 们 将 为 一 门 我 自己 设计 的 、 名 为 Cymbol 的 语言 编写 一 个 语 
法 ， 以 此 来 展示 类 C 语 言 的 解析 过 程 。Cymbol 是 一 门 简单 的 、 非 面向 
对 象 的 编程 语言 ， 外 观 类 似 不 带 结构 体 的 C 语 言 。 如 果 你 想 要 自己 创造 
一 门 新 的 编程 语言 的 话 ，Cymbol 的 语法 可 以 作为 它 的 原型 。 本 闻 不 会 
介绍 新 的 ANTLR 语 法 结构 ， 不 过 ， 我 们 编写 的 Cymbol 语 法 将 会 展示 如 
何 构造 一 条 左 递归 的 表达 式 规则 。 


当 设 计 一 门 新 的 语言 时 ， 我 们 就 没有 可 以 参考 的 正式 语法 和 文档 了 。 
取而代之 的 是 ， 我 们 通过 设计 新 语言 的 范例 代码 来 起 步 。 之 后 ， 我 们 
就 可 以 按照 5.1 节 中 的 方法 ， 从 范例 代码 中 提取 语法 (这 也 是 我 们 处 理 
缺乏 正式 语法 和 参考 文档 的 现 有 语言 的 方式 ) 。 下 面 一 段 带 有 全 局 变 
量 和 递归 函数 声明 的 程序 就 是 Cymbol 代 码 ; 


examples/t.cymbol 

// Cymbol test 

int g = 9; // 全 局 变量 

int fact(int x) { // 求 阶乘 的 函数 
if x==0 then return 1; 
return x * fact(x-1); 


} 


忠 像 厨 乞 展示 一 样 ， 让 我 们 先 看 看 最 终 的 成 品 ， 以 便 将 目标 铭记 于 
心 。 图 6-5 的 语法 分 析 树 展示 了 最 终 的 语法 应 当 如 何 解 析 输 入 的 代码 


(通过 grun Cymbol file-gui tcymbol) 。 


file 
varDedl functionDed| 
JS a OC 
type g = expr ; type fact ( formalParameters ) block 
int 9 int formalParameter f stat stat ] 
和 ee 
type x if expr then stat return expr ; 
人 
| 2 | 2 NA > le 
int expr == expr return expr ; expr * expr 
| | | A SS 
X 0 1 x fact ( exprList ) 
expr 
| 


expr - expr 


X 1 
图 6-5 ”展示 了 最 终 语法 应 当 如 何 解析 输入 代码 的 语法 分 析 树 


从 最 粗 的 粒度 观察 Cymbol 程 序 ， 我 们 可 以 发 现 它 由 一 系列 全 局 变量 和 
画 数 声明 组 成 。 


examples/Cymbol.g4 
file: (functionDecl | varDecl)+; 


同 所 有 的 类 C 语 言 一 样 ， 变 量 声明 由 一 个 类 型 开始 ， 随 后 是 一 个 标识 
符 ， 最 后 是 一 个 可 选 的 初始 化 语句 。 


examples/Cymbol.g4 
varDecl 
type ID ('=' expr)? '»' 


type: 'float' | 'int' | 'void' ; // 用 户 定义 的 类 型 


数 声 明 也 基本 上 相同 : 类 型 后 面 跟着 函数 名 ， 随 后 是 被 括号 包围 的 
数列 表 ， 最 后 是 函数 体 。 


羡 | 


Sh 


examples/Cymbol.g4 
functionDecl 
type ID '(' formalParameters? ')' block // "void f(int x) {...}" 


formalParameters 
formalParameter (',' formalParameter)* 


formalParameter 
type ID 


一 个 函数 体 是 由 花 括 号 包围 的 一 组 语句 。 让 我 们 先 构造 六 种 语句 : 航 
套 的 代码 块 、 变 量 声 明 、 让 语句 、return 语 句 、 赋 值 语句 ， 以 及 函数 调 
用 。 我 们 可 以 用 下 面 的 ANTLR 语 法 来 表达 它们 : 


examples/Cymbol.g4 


block: 'f{f' stat* '}' ; ”// 语句 组 成 的 代码 块 ， 可 以 为 空 
stat: block 
varDecl 


| 

| 'if' expr 'then' stat ('else' stat)? 
| 'return' expr? 7 

| expr '=' expr ';' // 赋值 

| expr “7 // 函数 调用 


Cymbol 语 言 的 最 后 一 个 主要 部 分 是 表达 式 语法 。 因 为 Cymbol 实 际 上 仪 
仅 是 其 他 语言 的 原型 或 者 基础 ， 因 此 没有 必要 包含 非常 多 的 运算 从。 


假设 我 们 的 表达 式 包括 一 元 取 反 、 布 尔 非 、 乘 法 、 加 法 、 减 法 、 轴 数 
调用 、 数 组 索引 、 等 同性 判断 、 变 量 、 整 效 以 及 括号 表达 式 。 


examples/Cymbol.g4 


expr: ID '(' exprList? ')' // 类 似 f()，f(x)，f(1,2) 的 函数 调用 表达 式 
| expr '[' expr 了 // 类 似 a[li]，a[i][j] 的 数组 索引 表达 式 
| ”expr // 一 元 取 反 表达 式 
| '!' expr // 布尔 非 表达 式 
| expr '*' expr 
| expr ('+'|'-') expr 
| expr '==' expr // 等 同性 判断 表达 式 〈 它 是 优先 级 最 低 的 运算 符 ) 
| ID // variable reference 
| INT 
| '(' expr ') 
exprList : expr (',' expr)* ;  // 参数 列表 


其 中 的 重点 古 我 们 通 肖 将 备 选 分 支 按 照 从 高 到 低 的 优先 级 进行 排序 
(有 关 ANTLR 移 除 左 递归 和 处理 运 算 符 优先 级 的 深入 讨论 见 第 14 

章 ) 。 为 了 说 明 运 算 符 优先 级 的 应 用 ， 我 们 来 查看 一 下 -x+y; ”和 “- 
a 四; "对 应 的 语法 分 析 树 ， 它 们 的 起 始 规则 都 是 stat 规 则 (不 使 用 file 规 
则 是 为 了 避免 次 乱 ) ， 如 图 6-6 所 示 。 


-Xx+y; -ai 


Stat Stat 

expr  ， expr  ， 

expr + expr - expr 
- expr y expr [ expr | 

X a | 


图 6-6 ”起 始 规则 均 为 stat 规 则 的 语法 分 析 树 


左 侧 的 语法 分 析 树 显示 了 一 元 取 反 运算 伯 和 x 紧密 地 结合 在 一 起 ， 因 为 
它 比 加 法 的 优先 级 更 高 。 这 是 由 于 取 反 表达 式 的 备 选 分 文 在 加 法 表达 
式 之 前 。 另 一 方面 ， 由 于 取 反 表达 式 的 备 选 分 文 在 数组 索引 表达 式 之 
后 ， 取 反 运 算 符 的 优先 级 比 数组 索引 运算 符 低 。 右 侧 的 语法 分 析 树 显 
示 ， 取 反 运 算 符 被 应 用 在 a 中 之 上 ， 而 非 标识 答 a。 在 下 一 市 中 ， 我 们 将 
看 到 更 加 复杂 的 表达 式 规 则 。 


我 们 不 再 循规蹈矩 地 编写 词法 规则 ， 因 为 它们 不 能 教会 我 们 任何 新 知 
识 。 这 些 规 则 几乎 是 从 前 一 章 中 词法 模式 一 节 中 照搬 过 来 的 。 在 本 市 


中 ， 我 们 主要 将 注意 力 集中 在 探索 命令 式 编程 语言 的 语法 结构 上 。 


在 本 中 ， 我 们 基本 上 息 在 攒 直觉 构造 一 [不 市 类 的 Java 语 言 "， 这 使 
得 编写 Cymbol 语 言语 法 的 过 程 异 单 顺利 。 如 有 果 你 能 够 完全 理解 它 ， 那 
么 对 你 而 言 ， 创 造 一 门 属于 你 自己 的 复杂 的 命令 式 语 言 就 是 一 件 轻 而 
易 举 的 事情 。 


在 下 一 万 中 ， 我 们 要 走 同 另外 一 个 极 闪 一 一 根据 多 种 多 样 的 参考 文 
档 、 范 例 程序 以 及 现 有 的 R 语 言 的 实现 ， 提 炼 出 精确 的 语言 结构 ， 从 而 


完成 一 个 优秀 的 R 语 言语 法 。 


6.5 解析 R 语 言 


R 是 一 门 极 富 表现 力 的 领域 特定 (domain-specific) 编程 语言 ， 专 门 用 
于 描述 和 解决 统计 学 问题 。 例 如 ， 在 R 语 言 中 ， 新 建 向 量 、 对 向 量 调用 
函数 、 算 选 回 量 都 十 分 容易 (下 面 的 示例 使 用 了 R 语 言 命 令 行 交互 工 
具 ) 。 


这 x <- seq(1,10,.5) # X= 1 1.5, 2 2.5, 3, 3.:5, vue, 10 
今 y <- 1:5 # Y= 1, 2, 3, 4, 5 
过 Z <- c(9,6,2,10,-4) #2z= 9, 6, 2, 10, -4 
过 y+z # 将 两 个 向 量 相 加 

《[1] 10 8 514 1 # 结果 是 一 个 一 维 向 量 

今 z[z<5] # 所 有 满足 z < 5 的 元 素 
《[1] 2 -4 

今 mean(z) # 计算 向 量 z 的 均值 

《 [1] 4.6 

> zero <- function() { return(0) } 

过 zero() 


《[1] 0 


R 语 言 是 一 门 中 等 大 小 却 十 分 复杂 的 语言 ， 并 且 ， 在 我 们 之 中 的 大 多 数 
人 面前 都 有 一 道 鸿沟 : 我 们 不 了 解 R 语 言 。 这 束 意 味 着 ， 我 们 无 法 像 上 
一 节 的 Cymbol 那 样 ， 和 赁 着 对 语言 结构 的 内 在 感觉 来 完成 语法 的 编写 。 
我 们 必须 根据 参考 手册 、 范 例 代 码 以 及 现 有 实现 中 正式 的 yacc 语 法 ， 拓 
炼 出 R 语 言 的 结构 。 


百 和 匈 ， 最 好 通过 一 些 综述 来 大 致 了 解 一 下 R 语 言 。 同 时 ， 我 们 也 应 当 看 
一 些 R 语 言 的 代码 来 找 找 感觉 ， 然 后 将 它们 作为 最 终 的 “验收 测试 ”。 
Ajay Shah 已 经 编写 了 许多 可 用 的 范例 代码 。 禾 盖 这 些 范 例 意 味 着 我 们 
的 语法 能 够 处 理 大 部 分 R 语 言 代 码 了 ( 想 要 在 不 了 解 一 门 语言 的 情况 下 
编写 出 针对 该 语言 的 完美 语法 是 不 可 能 的 ) 。 在 R 语 言 的 官方 网 站 上 ， 
有 很 多 文档 可 以 帮助 我 们 完成 编写 R 语 言语 法 的 工作 ， 我 们 将 主要 使 用 
其 中 的 R-info 和 语言 定义 R-lang 。 


和 往 背 一样 ， 我 们 的 语法 编写 从 最 粗 的 粒度 开始 。 显 然 ， 站 在 整体 的 
角度 上 看 ，R 语 言 的 程序 由 一 系列 表达 式 或 者 赋值 语句 构成 。 每 个 函数 
定义 都 是 赋值 语句 ， 写 等 价 于 将 一 个 函数 赋值 给 一 个 变量 。 唯 一 令 我 
们 感到 陌生 的 是 ， 在 R 语 言 中 存在 三 种 赋值 运算 符 : <-、= 和 <<-。 了 就 我 
们 的 目标 而 言 ， 我 们 无 需 关 心 这 些 运 算 符 的 舍 义 ， 因 为 我 们 要 构建 的 
仅仅 是 语法 分 析 器 ， 而 非 解 释 句 或 者 编译 恬 。 我 们 对 R 语 言 程序 结构 的 


第 一 次 分 解 如 下 所 示 : 


prog : (expr or assign '\n')* EOF ，; 


expr_or assign 
expr ('<-' '=" '<<-' ) expr or assign 


| expr 


通过 阅读 范例 代码 我 们 发 现 ，R 语 言 似 乎 允许 在 一 行 中 存在 多 个 分 号 分 
隅 的 表达 了 式 。R-intro 文 档 确认 了 这 一 点 。 此 外 ， 虽 然 没 有 在 参考 手册 
中 所 及 ，R 语 言 的 命令 行 允 许 且 会 目 动 忽略 输入 的 空 行 。 将 这 些 已 知 规 
则 组 合 在 一 起 ， 我 们 束 得 到 了 下 列 语法 : 


examples/R.g4 

prog : ( expr or assign (';'|NL) 
| NL 
) * 
EOF 


expr or assign 
expr ('<-'|'='|'<<-') expr or assign 
| expr 


我 们 使 用 词法 符号 NL 而 不 是 常量 \m' 的 原因 是 我 们 希望 同时 允许 
Windows 风 格 的 换行 符 (nn) 和 UNIX 风 格 的 换行 符 (nn) ， 而 这 很 
易 在 词法 规则 中 定义 。 


examples/R.g4 
// Match both UNIX and Windows newlines 
NL "Ve? hh 


注意 ，NL 规 则 并 没有 像 往常 一 样 丢弃 对 应 的 词法 符号 。 语 法 分 析 器 将 
这 些 词法 符号 当 作 表 达 式 的 终止 人 符 ， 类 似 Java 中 的 分 号 ， 因 此 ， 词 法 分 
析 器 必须 将 它们 完整 地 输送 给 语法 分 析 器 。 


R 语 言语 法 中 的 大 部 分 内 容 是 和 表达 式 相 关 的 ， 因 此 在 本 节 的 剩余 部 分 
我 们 将 集中 精力 处 理 它们 。 在 R 语 言 中 ， 有 三 种 主要 的 表达 式 ， 语句 表 
达 式 (statement expression) 、 运 算 符 表达 式 (operator expression) 和 
函数 相关 表达 式 (function-related expression) 。 由 于 R 语 言 的 语句 和 其 
他 命令 式 编 程 语言 的 对 应 部 分 非常 相似 ， 我 们 首先 完成 这 部 分 工作 。 
下 面 是 expr 规 则 中 包含 的 备 选 分 文 (它们 位 于 运算 符 表 达 式 的 备 选 分 文 
之 后 ) : 


examples/R.g4 

| '{f' exprlist '}' // 复合 语句 

| IF '(' expr ')' expr 

| 'if' '(' expr ')' expr 'else' expr 
| 'for' '(' ID 'in' expr ')' expr 

| ‘while' '(' expr ')' expr 

| 'repeat' expr 

| '?' expr // 获取 expr 的 帮助 信息 ， 通 常 是 字符 串 或 者 标识 符 
| 'next' 

| break 


其 中 ， 第 一 个 备 选 分 文 匹 配 R-intro 中 提 到 的 “表达 式 组 ”一 一 多 条 命令 
可 以 通过 花 括 号 ({ 和 }) 组 成 一 个 复合 表达 式 ”。 下 面 是 exprList 规 则 的 
定义 : 


examples/R.g4 
exprlist 
expr or assign ((';'|NL) expr or assign?)* 


了 


R 语 言 中 的 大 多 数 表达 式 包 含 丰 是 的 运算 从 。 为 了 得 到 这 些 表 达 式 的 正 
确 形 式 ， 最 好 的 方法 是 参照 yacc 的 语法 。 可 执行 的 代码 通常 是 (但 并 非 
总 是 ) 表达 语言 作者 意图 的 最 好 向 导 。 为 了 获知 各 运算 符 的 优先 级 ， 
我 们 需要 查看 优先 级 表 ， 它 显 式 地 指明 了 相关 运算 符 的 优先 级 。 例 

如 ， 下 列 yacc 语 法 给 出 了 算术 运算 符 定义 ( 先 列 出 的 %left 命 令 优 先 级 
较 低 ) : 


%Left i 
%left 和 


R-lang 文 档 中 有 一 个 名 为 “中 缀 和 前 缀 运算 符 ” 的 章节 ， 给 出 了 运算 符 优 
先 级 规则 ， 不 过 ， 它 似乎 漏 掉 了 yacc 语 法 中 的 : : : 运算 符 。 将 所 有 一 
切 组 合 在 一 起 ， 我 们 束 得 到 了 下 列 处 理 二 元 、 前 缀 和 后 缀 运算 符 的 表 
达 式 规则 : 

examples/R.g4 


expr: expr '[[' sublist ']' ']' // '[[' 源 于 R 语言 的 yacc 语法 
| expr '[' sublist 'J' 


expr ('::'|':::') expr 

expr ('$'|'@') expr 

expr '^'<assoc=right> expr 

('-'|'+') expr 

expr ':' expr 

expr USER_0P expr // 任意 被 % 包 围 的 文本 : '%' .* '%' 
expr ('*'|'/') expr 


expr ('+'|'-') expr 

expr (‘>"1'>="|'<"|'<="|'=="|'!=') expr 
'!' expr 

expr ('&'|'&&') expr 

expr ( | | [| ) expr 

'~' expr 

expr '~'" expr 

expr ('->'|'->>'|':=') expr 


我 们 无 须 关 心 运算 符 的 具体 含义 ， 因 为 在 这 个 例子 中 ， 我 们 暂时 只 关 
心 识别 问题 。 我 们 唯一 需要 确保 的 是 ， 我 们 的 语法 能 够 使 用 正确 的 优 
先 级 和 结合 性 完成 匹配 。 


expr 规 则 的 一 个 不 同 寻 香 的 地 方 是 ， 在 备 选 分 文 '[[sublist]"] 中， 我 们 使 
用 的 是 ' 民 而 非 必 [5。 ([[...]] 得 到 的 是 包含 单一 元 素 的 列表 ， 而 [..…] 生 成 
一 个 子 列表 。) 其 中 的 '[[' 规 则 直接 取 目 R 语 言 的 yacc 语 法 。 这 可 能 十 因 
为 语法 的 作者 布 望 强制 “两 个 左 方 括号 之 间 没 有 任何 空 日 字符 ”"， 不 过 
这 一 点 并 没有 在 参考 手册 中 体现 出 来 。 


其 中 ，^ 运 算 符 后 面 带 有 后 缀 <assoc=right> ( 详 见 5.4 节 ) ， 因 为 R-lang 
文档 指出 : 


指数 运算 符 久 以 及 癌 左 赋值 运算 符 '<-=<<-' 自 右 问 左 组 合 ， 其 他 的 运算 
符 都 是 自 左 向 右 分 组 合 的 。 即 ，2^2^3 的 结果 是 2^8， 而 不 是 4^3。 


在 语句 表达 式 和 运算 符 表 达 式 的 规则 都 已 经 束 绪 之 后 ， 让 我 们 来 看 expr 
规则 的 最 后 一 部 分 : 定义 和 调用 函数 。 我 们 可 以 写 出 如 下 所 示 的 备 选 
由 及， 


examples/R.g4 
| 'function' '(' formlist? ')' expr // 定义 函数 
| expr '(' sublist ')' // 调用 水 数 


formlist 和 sublist 规 则 分 别 定义 了 形式 参数 列表 和 实际 参数 列表 。 这 两 个 
规则 的 名 字 取 目 yacc 语 法 ， 这 样 束 能 更 加 容易 地 对 比 两 份 语法 。 


formlist 规 则 表达 的 函数 形 参 遵循 R-lang 文 档 中 的 如 下 对 


.一 个 由 逗号 分 隔 的 元 素 组 成 的 列表 ， 每 个 元 素 都 可 以 是 标识 符 或 
考 'identifier=default' 的 形式 ， 或 者 是 特殊 的 词法 符号 '...'。 其 中 ，default 
可 以 是 任意 的 合法 表达 式 。 


我 们 可 以 编写 一 条 和 yacc 语 法 中 的 formlist 规 则 相似 的 ANTLR 规 则 来 实 
现 它 。 


examples/R.g4 
formlist : form (',' form)* 


对 于 芳 数 的 调用 ，R-lang 摘 述 了 参数 表 的 语法 ， 如 下 所 示 。 


每 个 参数 都 可 以 带 上 标记 (tag=expr) ， 或 者 只 是 一 个 简单 的 表达 式 。 
参数 可 以 为 空 或 特殊 词法 符号 之 一 ， 如 '.，'.2' 等 。 


yacc 语 法 额外 增加 了 有 几 条 规则 ， 它 指出 ， 参 数 可 以 是 类 似 "n"=0，n=1， 
以 及 NULL=2 的 东西 。 这 样 ， 我 们 整 得 到 了 下 列 指定 函数 的 调用 参数 的 
规则 : 

examples/R.g4 


sublist : sub (',' sub)* ; 
sub : expr 


JW 
| 
思 
二 
= 2 
G) 
Il Il IN IN 藉 
= 如 
邱 


| 
| 
| 
| 
| NULL' '=' 
| 
| 
| 


你 可 能 有 后 疑 惑 ， 为 什么 我 们 不 在 sub 规 则 中 匹配 .2 这样 的 特殊 词法 符 
号 ? 这 是 因为 ， 我 们 无 须 显 式 地 匹配 它们 ， 词 法 分 析 器 会 将 它们 当 作 
标识 和 从 处理。 根据 R-lang 文 档 : 


标识 符 包含 字母 、 数 字 、 句 点 (,') ， 以 及 下 划 线 。 合 法 的 标识 符 不 能 
以 数字 、 下 划 线 和 句点 后 的 数字 开头 。.. .注意 ， 以 句点 开头 的 标识 


符 ， 例 如 …，'.1，'.2 等 ， 是 特殊 标识 符 。 


为 了 满足 上 述 要 求 ， 我 们 使 用 如 下 的 标识 符 规则 : 


examples/R.g4 


ID "= WLETTER|® | CLETTERIDEGIT|® 让 二) 各 
| LETTER (LETTERI|DIGITI "|"s")* 
fragment LETTER : [a-zA-Z] ; 


其 中 ， 第 一 个 备 选 分 支 将 以 句点 开头 的 标识 符 的 情况 区 分 了 出 来 。 我 
们 必须 确保 数字 不 是 这 种 标识 符 的 第 二 个 字符 ， 这 是 通过 子规 则 

(LETTER| .) 来 完成 的 。 此 外 ， 为 了 保证 标识 符 不 以 数字 或 者 下 划 
线 开 头 ， 我 们 的 第 二 个 备 选 分 支 以 LETTER 开 头 。 对 于 ..2 这 种 情况 ， 第 
一 个 备 选 分 支 会 匹配 它 。 它 开头 的 .匹配 该 规则 中 的 第 一 个 点 ， 子 规则 
(LETTER| 小 ) 匹配 了 它 的 第 二 个 点 ， 最 后 的 那 部 分 子规 则 匹配 了 数 


= 


a 


词法 规则 的 其 他 部 分 是 直接 从 之 前 章节 中 拷贝 或 者 稍 加 扩展 而 来 的 ， 
这 里 不 再 费 述 。 


让 我 们 使 用 grun 命 令 分 析 下 面 的 输入 文件 ， 来 一 瞳 我 们 大 作 的 风采 。 


examples/t.R 

addMe <- function(x,y) { return(x+y) } 
addMe (x=1 ,2) 

r= 1:5 


图 6-7 是 根据 输入 文件 LR 建 立 并 显示 可 视 化 的 语法 分 析 树 的 步骤 。 


$ antLr4 R.g4 
$ javac R*.java 
$ grun R prog -gui t.R 


prog 
ee 
expr_or_assign \n expr_or_assign \n expr_or assign \n <EOF> 
SS ss 
A » ss / ~ 
expr <- expr_or_assign expr expr <- expr_or_assign 
| er es | | 
addMe expr expr ( Sublist ) rr expr 
i 人 eA | 
function ( formlist ) expr addMe sub ， sub expr : expr 
2 Te > 
5 SS a De 过 | | | 
form , form { exprlist } x = expr expr | 5 
x y expr_or_assign 1 2 
expr 
2 
pO 


expr ( sublist ) 


return sub 


expr + expr 


Xx y 


图 6-7 输入 文件 t.R 的 语法 分 析 树 


只 要 每 个 表达 式 都 像 函 数 addMe () 一 样 占 一 行 ， 我 们 的 R 语 法 就 能 

常 工作 。 不 过 ， 这 个 限制 是 不 应 该 存在 的 ， 因 为 R 语 言 允 许 函 数 和 其 他 
表达 式 占 据 多 行 。 尽 管 如 此 ， 我 们 的 任务 〈 履 盖 R 语 言 本 身 的 语法 结 

构 ) 已 经 圆满 完成 了 。 在 源 文件 夹 code/extras 中 ， 你 可 以 看 到 解决 该 问 
题 的 方案 ， 请 参阅 R.g4、RFilter.g4 以 及 TestR.java。 该 方案 是 这 样 的 : 

在 词法 分 析 器 产生 词法 符号 流 后 ， 根 据 R 语 言语 法 的 要 求 ， 对 其 进行 过 
泪 ， 用 适当 的 方法 保留 或 者 丢弃 一 些 换行 符 。 


在 本 章 中 ， 我 们 的 目标 是 巩固 ANTLR 语 法 的 相关 知识 ， 以 及 学 习 如 何 
根据 一 门 语言 的 参考 文档 、 范 例 代码 和 非 ANTLR 语 法 来 编写 该 语言 的 
语法 。 到 目前 为 止 ， 我 们 已 经 研究 了 两 门 数 据 描述 语言 (CSV 和 
JSON) 、 一 门 声明 式 语 言 (DOT) 、 一 门 命令 式 语言 (Cymbol) 和 一 
门 画 数 式 语言 (R) 。 这 些 示例 覆盖 了 编写 复杂 语言 语法 所 需 知 识 的 方 
方面 面 。 不 过 ， 在 继续 学 习 之 前 ， 你 最 好 通过 下 载 语法 并 稍 事 改动 来 
巩固 这 些 知识 。 例 如 ， 你 可 以 试 着 为 Cymbol 语 言语 法 增加 更 多 的 运算 
符 和 语句 。 使 用 TestRig 来 难 证 你 修改 后 的 语法 和 范例 代码 之 间 的 天 
系 。 


本 书 迄 今 为 止 的 篇 幅 都 是 有 关 语 言 识别 的 。 但 是 ， 语 法 本 吴 只 能 反映 
出 输入 文本 是 否 遵循 该 语言 的 规则 。 现 在 ， 我 们 都 已 经 成 为 语法 分 析 
器 领域 的 专家 ， 在 下 一 章 中 ， 我 们 将 学 习 如 何 把 应 用 程序 的 逻辑 代码 


和 语法 分 析 机 制 整 合 。 之 后 ， 我 们 整 能 构建 真正 的 语言 类 应 用 程序 
了 了 。 


第 7 章 将 语法 和 程序 的 逻辑 代码 解 精 


在 之 前 的 学 习 中 ， 我 们 已 经 知道 了 如 何 使 用 ANTLR 来 定义 语言 的 正式 
语法 ， 现 在 ， 是 时 候 对 语法 进行 一 些 深入 研究 了 。 通 第 单独 的 语法 并 
没有 用 处 ， 而 与 其 相关 的 语法 分 析 屁 才能 告诉 我 们 输入 语句 古人 否 遵 循 
该 语言 的 规范 。 为 了 构建 一 个 语言 类 应 用 程序 ， 语 法 分 析 器 需要 在 中 
到 特定 的 输入 语句 、 词 组 或 者 词法 符号 时 触发 特定 的 行为 。 这 样 的 词 
组 -行为 的 集合 构成 了 我 们 的 语言 类 应 用 程序 ， 或 者 ， 至 少 担 任 了 语 
法 和 外 围 程序 间接 口 的 角色 。 


在 本 章 中 ， 我 们 将 会 学 习 如 何 使 用 语法 分 析 树 监听 器 和 访问 器 来 构建 
语言 类 应 用 程序 。 监 听 需 能 够 对 特定 规则 的 进入 和 退出 事件 ( 即 识 别 
到 某 些 词组 的 事件 ) 作出 响应 ， 这 些 事件 分 别 由 语法 分 析 树 遍历 器 在 
开始 和 完成 对 市 点 的 访问 时 触发 。 男 外 ，ANTLR 目 动 生成 的 语法 分 析 
树 也 支持 广为人知 的 访问 者 模式 ， 从 而 允许 程序 控制 语法 分 析 树 的 人 远 
历 过 程 。 


监听 需 和 访问 套 机 制 的 最 大 区 别 在 于 ， 监 听 需 方法 不 负责 显 式 调用 子 
节点 的 访问 方法 ， 而 访问 器 必 须 显 式 触发 对 子 节 点 的 访问 以 便 树 的 电 
历 过 程 能 够 正常 进行 (正如 我 们 在 2.5 市 中 看 到 的 那样 ) 。 因 为 访问 器 


机 制 需 要 显 式 调用 方法 来 访问 子 节 点， 所 以 它 能 够 控制 遍历 过 程 中 的 
访问 顺序 ， 以 及 节点 被 访问 的 次 数 。 为 简便 起 见 ， 在 下 文中 我 会 用 术 
语 “ 事 件 方 法 ”(event method) 来 代替 监听 器 的 回调 方法 和 访问 器 方 


| 去 二 


本 章 中 ， 我 们 的 目标 是 准确 理解 ANTLR 自 动 生成 的 语法 分 析 树 遍历 机 
制 的 工作 方式 和 原理 。 我 们 将 言 先 了 解 监 听 需 机制 的 起 源 ， 以 及 如 何 
使 用 监听 器 和 访问 器 机 制 来 使 得 程序 逻辑 代码 与 语法 分 离 。 随 后 ， 我 
们 将 会 学 习 如 何 令 ANTLR 产 生 更 加 精确 的 事件 一 一 为 规则 的 每 个 备 选 
分 支 都 生成 一 个 事件 。 在 深入 了 解 ANTLR 的 语法 分 析 树 届 历 机 制 后 ， 
我 们 将 阅读 三 个 计算 如 的 实现 代码 ， 它 们 展示 了 传递 子 表达 式 结 琳 的 
不 同方 法 。 最 后 ， 我 们 将 会 讨论 三 种 方法 的 优 缺 点 。 到 那 时 ， 我 们 丈 
能 胸有成竹 地 处 理 下 一 章 中 的 真实 语言 7 了。 


7.1 从 内 巾 动 作 到 监听 器 的 演进 


如 琳 你 曾经 使 用 过 ANTLR 的 早期 版 本 或 者 其 他 能 够 目 动 生成 语法 分 析 
器 的 工具 ， 你 会 尺 讶 于 这 一 事实 ， 我 们 构建 语言 类 应 用 程序 时 可 以 不 
在 语法 中 内 藤 动 作 (代码 ) 。 监 听 器 和 访问 器 机 制 能 够 将 语法 和 程序 
逻辑 代码 解 簿 ， 从 而 大 有 神 荔 。 这 样 的 解 耦 将 程序 封装 起 来 ， 避 免 了 
杂乱 无 章 地 分 散在 语法 中 。 如 果 语 法 中 没有 内 藤 动 作 ， 我 们 就 可 以 在 
多 个 程序 中 复 用 同一 个 语法 ， 而 无 须 为 每 个 目标 语法 分 析 器 重新 编译 


一 次 。 


受益 于 内 藤 动 作 的 机 制 ，ANTLR 能 基于 同一 个 语法 文件 ， 使 用 不 同 的 
编程 语言 生成 语法 分 析 器 (在 ANTLR 4.0 发 布 后 ， 我 参与 了 对 不 同 目标 
语言 提供 支持 的 相关 工作 ) 。 同 时 ， 在 集成 过 程 中 ， 由 于 无 须 担 心 合 
并 后 内 刚 动 作 的 冲突 ， 对 语法 的 更 新 和 bug 修 复 也 十 分 容易 。 


本 市 主要 人 研究 从 包含 内 风 动 作 的 语法 到 完全 与 动作 解 类 的 语法 的 演进 
过 程 。 下 列 语法 用 于 读 取 属性 文件 ， 这 些 文件 的 每 行 都 是 一 个 赋值 语 
句 ， 其 中 <<.….>> 是 内 嵌 动 作 的 概要 。 类 似 <<start file>> 的 标记 代表 一 段 
恰当 的 Java 代 码 。 


grammar PropertyFile; 
file : {start file»》} prop+ {finish file»} ; 


prop : ID '=' STRING '\n' {process property>»}; 
ID : [a-zl]+ ; 
STRING: & S™ a*? SW 


这 样 的 紧 耦 合 使 得 语法 被 绑 定 到 了 特定 的 程序 上 。 更 好 的 方案 是 ， 从 
ANTLR 自 动 生成 的 语法 分 析 器 PropertyFileParser 派 生出 一 个 子 类 ， 然 后 
将 内 蕉 动作 转换 为 方法 。 这 样 的 重 构 可 以 使 得 语法 中 仅仅 包含 方法 调 
用 ， 之 后 我 们 就 可 以 通过 语法 分 析 器 的 子 类 实现 任意 数量 的 不 同 功能 
的 程序 ， 而 无 须 修 改 原 先 的 语法 。 下 列 代码 展示 了 这 样 的 重 构 过 程 : 


grammar PropertyFile; 
Gmembers { 
void startFile() { } // 空 实现 
void finishFile() { } 
void defineProperty(Token name, Token value) { } 
} 
file : {startFile();} prop+ {finishFile();} ; 
prop : ID '=' STRING '\n' {defineProperty($ID, $STRING)} ; 
ID : [a-z]+ ; 
STRING 3 "®™ sa*? 


上 壕 解 三 方案 允许 该 语法 被 不 同 程序 复 用 ， 但 是 由 于 方法 调用 的 存 
在 ， 它 仍然 和 Java 绑 定 在 一 起 。 我 们 随后 会 解决 这 个 问题 。 


为 了 展示 重 构 后 的 语法 拥有 良好 的 复 用 性 ， 让 我 们 构建 两 个 不 同 的 “ 语 
言 类 应 用 程序 >»， 先 从 其 中 一 个 开始 : 在 遇 到 属性 的 时 候 将 它们 打印 出 
来 。 编 写 这 个 程序 的 过 程 非常 简单 ， 只 需 继 承 ANTLR 自 动 生 成 的 语法 
分 析 器 类 ， 然 后 覆盖 语法 中 触发 的 一 个 或 多 个 方法 即 可 。 


class PropertyFilePrinter extends PropertyFileParser { 
void defineProperty(Token name, Token value) { 
System.out.println(name.getText()+"="+value.getText()); 


} 


需要 注意 的 是 ， 我 们 无 须 覆 盖 startFile () 和 finishFile () 方法 ， 因 为 
ANTLR 自 动 生成 的 PropertyFileParser 已 经 提供 了 它们 的 默认 实现 。 接 下 
来 ， 只 需 新 建 一 个 我 们 自 定义 的 PropertyFilePrinter 子 类 的 实例 ， 即 可 运 
行 这 个 程序 。 


PropertyFileLexer Lexer = new PropertyFileLexer(input); 
CommonTokenStream tokens = new CommonTokenStream( lexer); 
PropertyFilePrinter parser = new PropertyFiLePrinter(tokens ) ; 
parser.file(); // 运行 我 们 的 特殊 版 本 的 语法 分 析 器 


至 于 第 二 个 程序 ， 我 们 要 完成 的 功能 是 将 属性 放 入 一 个 Map， 而 非 打 印 
出 来 。 这 个 过 程 中 ， 我 们 要 做 的 仅仅 是 实现 一 个 新 的 子 类 ， 然 后 为 
defineProperty () 加 入 不 同 的 功能 。 


class PropertyFileLoader extends PropertyFileParser { 
Map<String,String> props = new OrderedHashMap<String, String>(); 
void defineProperty(Token name, Token value) { 
props.put(name.getText(), value.getText()); 


在 这 个 语法 分 析 器 执行 后 ，props 字 段 将 会 包含 属性 文件 的 全 部 键 值 


这 份 语法 仍然 存在 缺陷 : 受 内 藤 动 作 的 限制 ， 它 只 能 生成 Java 编 写 的 语 
法 分 析 器 。 为 了 使 语法 可 被 重用 并 具有 语言 中 立 性 ， 我 们 需要 完全 避 
免 内 舱 动 作 的 存在 。 搂 下 来 的 两 节 详 细 讲 述 了 如 何 使 用 监听 郝 和 访问 
如 来 达到 这 个 目的 。 


7.2 使 用 语法 分 析 树 监听 响 编 写 程序 


构建 应 用 逻辑 和 语法 松 耦 合 的 语言 类 应 用 程序 的 关键 在 于 ， 令 语法 分 
析 器 建立 一 棵 语法 分 析 树 ， 然 后 在 裔 历 该 树 的 过 程 中 触发 应 用 逻辑 代 
码 。 我 们 可 以 使 用 上 自己 熟悉 的 方法 裔 历 这 样 的 语法 分 析 树 ， 也 可 以 利 


用 ANTLR 自 动 生 成 的 树 侦 历 器 。 在 本 方 中 ， 我 们 将 会 使 用 ANTLR 内 置 
的 ParseTreeWalker 构 建 一 个 与 上 一 节 类 似 的 、 基 于 监听 器 的 属性 文件 处 
理 程序 。 


让 我 们 从 一 个 “干净 ?的 、 识 别 属 性 文件 的 语法 开始 。 


listeners/PropertyFile.g4 
file : prop+ ; 
prop : ID '=' STRING '\n' ; 


下 面 是 一 个 属性 文件 的 样 例 ; 


listeners/t.properties 
user="parrt" 
machine="maniac" 


基于 上 壕 语法 ，ANTLR 和 生成 了 PropertyFileParser， 它 能 够 自动 建立 如 图 
7-1 中 所 示 的 语法 分 析 树 。 


file 
prop prop 
User = parrt mn machine = manlac \n 


图 7-1 自动 建立 的 语法 分 析 树 


在 得 到 了 语法 分 析 树 之 后 ， 我 们 就 能 使 用 ParseTreeWalker 来 访问 它 的 全 
部 方 点 ， 触 发 这 些 方 点 上 的 enter 和 exit 方 法 。 


让 我 们 看 看 ANTLR 基 于 语法 PropertyFile 生 成 的 监听 器 接口 
PropertyFileListener 。ANTLR 的 ParseTreeWalker 在 每 次 访问 和 离开 节点 
的 时 候 会 分 别 触发 对 应 规则 子 树 的 enter 和 exit 方 法 。 因 为 语法 
PropertyFile 中 只 有 两 条 文法 规则 ， 所 以 PropertyFileListener 接 口中 有 四 


个 方 仁 
1 
listeners/PropertyFileListener.java 
import org.antlr.v4.runtime.tree.*,; 
import org.antlr.v4.runtime.Token; 
public interface PropertyFileListener extends ParseTreeListener { 
void enterFile(PropertyFileParser.FileContext ctx); 
void exitFile(PropertyFileParser.FileContext ctx); 


void enterProp(PropertyFiLeParser.PropContext ctx); 
void exitProp(PropertyFileParser.PropContext ctx); 


FileContext 和 PropContext 类 是 每 条 语法 规则 对 应 的 语法 分 析 树 万 点 的 实 
现 。 它 们 包含 一 些 很 有 用 的 方法 ， 我 们 稍 后 将 会 深入 探究 。 


为 方便 起 见 ，ANTLR 目 动 生 成 了 一 个 名 为 PropertyFileBaseListener 的 默 
认 实 现 ， 它 包含 了 所 有 方法 的 空 实 现 ， 即 我 们 在 上 一 市 涉及 语法 的 
@members 区 域 中 手工 编写 的 代码 。 


public cLass PropertyFileBaseVisitor<T> extends AbstractParseTreeVisitor<T> 
implements PropertyFileVisitor<T> 

' 
@Override public T visitFile(PropertyFileParser.FileContext ctx) 
@Override public T visitProp(PropertyFiLeParser.PropContext ctx) 


蕊 才 
{ } 


这 样 的 于 认 实 现 允 许 我 们 只 履 兰 那些 我 们 所 关心 的 方法 。 例 如 ， 下 面 


的 属性 文件 加 载 融 和 之 前 一 样 包含 单个 方法 ,但 是 使 用 了 监听 右 机 
制 : 


listeners/TestPropertyFile.java 
public static class PropertyFileLoader extends PropertyFiLeBaseListener { 


Map<String,String> props = new OrderedHashMap<String, String>(); 
public void exitProp(PropertyFiLeParser.PropContext ctx) { 
String id = ctx.ID().getText(); // prop : ID '=' STRING '\n' ; 
String value = ctx.STRING().getText(); 
props.put(id, value); 


该 版 本 和 之 前 版 本 的 最 大 差别 在 于 ， 它 继承 了 监听 器 基 类 (base 
listener) 而 非 继承 语法 分 析 器 ， 另 外 ， 监 听 器 方法 是 在 语法 分 析 器 完 


成 解析 之 后 才 被 触发 的 。 


上 文中 出 现 了 很 多 接口 和 类 ， 所 以 让 我 们 来 看 一 下 它们 之 间 的 继承 关 
系 (接口 用 和 斜体 表示 ) ， 如 图 7-2 所 示 。 


ANTLR 运 行 库 


Parselreelistener 


ANTLR 根 据 PropertyFile.g4 自 动 生成 的 类 | 应 用 本 身 的 逻辑 
| 
< ! exitProp {...} 


enterFile enterFile {} 
exitFile exitFile {} 
enterProp enterProp {} 
exitProp exitProp {} 
visitlerminal {} 
enterEveryRule {} 


visitTerminal 
enterEveryRule 
exitEveryRule 
VisitErrorNode 


exitEveryRule {} 
visitErrorNode {} 


图 7-2 ”接口 和 类 之 间 的 继承 关系 


ParseTreeListener 接 口 位 于 ANTLR 运 行 库 中 ， 它 指示 每 个 监听 器 响应 事 
件 visitTermin-al () 、enterEveryRule () 、exitEveryRule () 以 及 (在 
遇 到 语法 错误 时 ) visitErrorNode () 。ANTLR 根 据 语法 PropertyFile 自 
动 生成 了 接口 PropertyFileListener 及 其 默认 实现 类 
PropertyFileBaseListener。 我们 唯一 需要 编写 的 是 PropertyFileLoader， 
它 继承 了 PropertyFileBaseListener 中 的 所 有 的 空 方法 。 


exitProp () 能 够 访问 该 规则 的 上 下 文 对 象 ， 即 与 prop 规 则 相关 的 
PropContext。 在 该 上 下 文 对 象 中 ，prop 规 则 中 的 每 个 元 素 (ID 和 
STRING) 都 对 应 一 个 方法 。 在 语法 中 ， 这 些 元 素 都 是 词法 符号 的 引 
用 ， 因 此 对 应 方法 返回 TerminalNode 类 型 的 语法 分 析 树 节点 。 我 们 可 以 
直接 通过 getText () 方法 获得 这 些 词法 符号 的 文本 内 容 ， 也 可 以 通过 
getSymbol () 方法 获得 Token 类 型 的 内 容 。 


下 面 是 最 激动 人 心 的 成 果 部 分 。 让 我 们 通 历 语法 分 析 树 ， 并 在 这 个 过 
程 中 使 用 新 的 PropertyFileLoader 类 监听 相应 的 事件 。 


listeners/TestPropertyFile.java 

// 新 建 一 个 标准 的 ANTLR 语法 分 析 树 遍历 器 

ParseTreeWalker walker = new ParseTreeWalker(); 

// 新 建 一 个 监听 器 ， 将 其 传递 给 遍历 器 

PropertyFiLeLoader Loader = new PropertyFiLeLoader() ; 
walker.walk(loader, tree); // 遍历 语法 分 析 树 
System.out.println(loader.props); // 打印 结果 


下 列 命 令 复习 了 对 语法 运行 ANTLR， 编 译 生成 的 代码 ， 以 及 局 动 测试 
程序 处 理 输入 文件 的 步骤: 


$ antLr4 PropertyFile.g4 

$ ls PropertyFiLe* .java 

PropertyFiLeBaseListener.java PropertyFiLeListener.java 
PropertyFileLexer.java PropertyFileParser.]java 

$ javac TestPropertyFile.java PropertyFile*.java 

$ cat t.properties 

user="parrt" 

machine="maniac" 

$ java TestPropertyFile t.properties 

{user="parrt", machine="maniac"} 


以 上 结果 显示 ， 我 们 的 测试 程序 成 功 地 将 文件 中 的 属性 读 取 到 了 内 存 
里 的 Map 中 。 


这 种 基于 监听 器 的 方法 十 分 巧妙 ， 因 为 所 有 的 遍历 过 程 和 方法 触发 都 
是 目 动 进行 的 。 有 些 时 候 ， 目 动 进行 的 遇 历 反而 成 为 一 个 缺陷 ， 因 为 
我 们 无 法 控制 般 历 的 过 程 。 例 如 ， 我 们 可 能 希望 思 历 一 个 C 语 言 程序 的 
语法 分 析 树 ， 跳 过 对 代表 函数 体 的 于 树 的 访问 ， 从 而 达到 忽略 钞 数 内 


容 的 目的 。 此 外 ， 监 昕 器 的 事件 方法 也 无 法 利用 方法 的 返回 值 来 传递 
数据 。 当 需要 控制 这 历 过 程 ， 或 者 希望 事件 方法 返回 值 时 ， 我 们 可 以 
使 用 访问 者 模式 。 接 下 来 ， 作 为 对 比 ， 我 们 将 会 构建 一 个 基于 访问 器 
机 制 的 属性 文件 加 载 右 。 


7.3 使 用 访问 器 编写 程序 


我 们 使 用 访问 占 机 制 代 共 监听 事 机 制 的 详细 步 又 是 ， 令 ANTLR 生 成 一 
个 访问 器 接口 ， 实 现 该 接口 ， 然 后 编写 一 个 测试 程序 对 语法 分 析 树 调 
用 visit () 方法 。 因 此 ， 我 们 完全 不 需要 跟 语 法 交互 。 


当 在 命令 行 中 使 用 -visitor" 选 项 时 ，ANTLR 自 动 生成 了 接口 
PropertyFileVisitor 和 以 下 默认 实现 类 PropertyFileBaseVisitor: 
public class PropertyFileBaseVisitor<T> extends AbstractParseTreeVisitor<T> 
implements PropertyFileVisitor<T> 
@Override public T visitFile(PropertyFileParser.FileContext ctx) 


@Override public T visitProp(PropertyFileParser.PropContext ctx) 


} 


se 
[ee 


我 们 可 以 从 上 一 市 的 监听 器 中 找 贝 exitProp () 中 的 代码 ， 将 它们 粘贴 
到 prop 规 则 对 应 的 访问 器 方法 中 。 


listeners/TestPropertyFileVisitor.java 

public static class PropertyFileVisitor extends 
PropertyFileBaseVisitor<Void> 

{ 
Map<String,String> props = new OrderedHashMap<String, String>(); 


public Void visitProp(PropertyFiLeParser.PropContext ctx) { 
String id = ctx.ID().getText(); // prop : ID '=' STRING '\n' ; 
String value = ctx.STRING().getText(); 
props.put(id, value); 
return null; // 注意 , 方法 的 返回 值 类 型 是 Void 而 非 void 

} 因此 根据 Java 语言 规范 ， 这 里 需要 返回 一 个 值 


对 比 前 一 节 中 的 监听 器 版 本 ， 图 7-3 展 示 了 与 访问 器 相关 的 接口 和 类 的 
继承 关系 。 
应 用 本 身 的 逻辑 


PropertyFileVisitor 


visitProp {...} 


ANTLR 根 据 PropertyFile.g4 自 动 生成 的 类 


PropertyFileVisitor<T> PropertyFileBaseVisitor<T> 


visitFile visitFile {} 
VisitProp 


visitProp {} 


图 7-3 与 访问 右 相 关 的 接口 和 类 的 继承 天 系 


访问 器 通过 显 式 调 用 ParseTreeVisitor 接 口 的 visit () 方法 来 遍历 语法 分 

析 树 。 该 方法 的 实现 在 AbstractParseTreeVisitor 中 。 在 本 例 中 ，prop 调 

用 生成 的 节点 没有 子 节 点 ， 因 此 visitProp () 无 需 再 调用 其 他 的 visit 
() 。 我 们 将 在 7.5 节 中 看 到 带 泛 型 的 访问 器 。 


访问 器 机 制 和 监听 器 机 制 下 的 测试 程序 (如 TestPropertyFile) 之 间 的 最 
大 区 别 在 于 ， 访 问 器 机 制 里 的 测试 程序 不 需要 ParseTreeWalker。 它 通过 
访问 属 来 访问 语法 分 析 怖 生成 的 树 。 


listeners/TestPropertyFileVisitor.java 
PropertyFileVisitor Loader = new PropertyFileVisitor(); 
loader.visit(tree); 

System.out.println(loader.props); // 打印 结果 


下 面 是 执行 构建 和 测试 的 相关 命令 : 


$ antLr4 -visitor PropertyFile.g4 # 使 用 vistor 选项 来 创建 访问 器 
$ ls PropertyFiLe* .java 

PropertyFileBaseListener.java PropertyFiLeListener,java 
PropertyFiLeBaseVisitor,java PropertyFileParser.java 
PropertyFileLexer.java PropertyFileVisitor.java 
$ javac TestPropertyFileVisitor.java 

$ cat t.properties 

user="parrt" 

machine="maniac" 

$ java TestPropertyFileVisitor t.properties 
{user="parrt", machine="maniac"} 


使 用 访问 右 和 监听 右 机 制 ， 我 们 可 以 完成 一 切 与 语法 相关 的 事情 。 一 
旦 进入 Java 的 领域 ， 就 没有 什么 ANTLR 的 相关 内 容 值 得 学 习 了 。 我 们 
需要 谍 记 在 心 的 是 ， 语 法 及 其 对 应 的 语法 分 析 树 ， 以 及 访问 器 或 者 监 
听 需 事件 方法 之 间 的 关系 。 除 此 之 外 ， 剩 下 的 仅仅 是 普通 的 代码 。 在 
对 输入 文本 进行 识别 时 ， 我 们 可 以 产生 输出 、 收 集 信息 (正如 本 例 中 
我 们 所 做 的 ) 、 用 某 种 方式 验证 输入 文本 ， 或 者 执行 计算 。 


上 文中 属性 文件 的 例子 非常 商 单 ， 因 而 我 们 无 须 处 理 备 选 分 文 。 于 认 
情况 下 ，ANTLR 为 每 条 规则 生成 单一 类 型 的 事件 ， 无 论语 法 分 析 夯 匹 
配 到 的 是 其 中 的 哪 一 个 备 选 分 文 ， 该 事件 都 会 被 触发 。 这 有 是 一 件 非常 
不 便 的 事情 ， 因 为 监听 右 和 访问 佑 方法 必须 搞 清 苔 语法 分 析 融 匹配 到 


的 是 哪 一 个 备 选 分 文 。 在 下 一 证 中 ， 我 们 将 会 看 到 如 何在 更 合适 的 粒 
度 上 处 理事 件 。 


7.4 标记 备 选 分 支 以 获取 精确 的 事件 方法 


为 了 说 明 过 粗 的 事件 粒度 带 来 的 问题 ， 让 我 们 尝试 利用 下 列表 达 式 语 
法 生成 的 监听 器 构建 一 个 简单 的 计算 器 程序 。 


listeners/Expr.g4 

grammar Expr.; 

Si 

e : e op=MULT e // MULT 是 '*' 
| e op=ADD e // ADD 是 '+' 


| INT 


实际 上 ， 规 则 e 产 生 了 一 个 相当 鸡肋 的 监听 需 方 法 ， 因 为 规则 e 的 所 有 
备 选 分 文 都 会 被 志 历 器 触发 为 完全 相同 的 enterE () 和 exitE () 方法 。 


public interface ExprListener extends ParseTreeListener { 
void enterE(ExprParser.EContext ctx); 
void exitE(ExprParser.EContext ctx); 


因此 ， 我 们 实现 的 监听 此 方法 整 不 得 不 做 这 样 的 测试 ， 用 op 词法 符号 
和 ctx 的 方法 来 判断 语法 分 析 屁 匹配 到 子 树 e 是 哪 一 个 备 选 分 文 。 


listeners/TestEvaluator.java 
public void exitE(ExprParser. sy EtX) 二 
if ( ctx.getChildCount()==3 ) { // 本 次 操作 有 三 个 元 素 
int Left = values. e(0) ) ; 
int right = values.get(ctx.e(1)); 
if ( ctx.op.getType()==ExprParser.MULT ) { 
values.put(ctx, left * right); 


} 
else 1{ 
values.put(ctx, left + right); 

} 
} 
else { 

values.put(ctx, values.get(ctx.getChild(0))); // 一 个 INT 
} 


其 中 ，exitE () 引用 的 MULT 字 段 是 由 ANTLR 在 ExprParser 中 生成 的 : 


public class ExprParser extends Parser { 
public static final int MULT=1, ADD=2, INT=3, WS=4; 


查看 一 下 ExprParser 中 的 内 部 类 EContext， 我 们 可 以 发 现 ，ANTLR 将 这 
二 个 备 选 分 支 放 进 了 同一 个 上 下 文 对 象 中 。 


public static class EContext extends ParserRuleContext { 


public Token op; // 规则 中 的 标签 op 
public List<EContext> e() { ... } // 获取 所 有 的 e 子 树 
public EContext el(int i) { ... } // 获取 第 i 个 e 子 树 


public TerminalNode INT() { ... } // 如 果 是 @ 的 第 三 个 备 选 分 支 ， 获 取 INT 节点 


为 获取 更 加 精确 的 监听 器 事件 ，ANTLR 人 允许 我 们 用 ## 云 算 符 为 任意 规则 
的 最 外 层 备 选 分 文 提供 标签 。 利 用 这 种 方法 ， 我 们 在 Expr 语 法 的 基础 
上 ， 为 e 的 备 选 分 文 增 加 标签 ， 得 到 LExpr 语 法 : 


listeners/LExpr.g4 


e :eMULTe # Mult 
| e ADD e # Add 


| INT # Int 


现在 ，ANTLR 为 e 的 每 个 备 选 分 文 都 生成 了 一 个 单独 的 监听 融 方 法 ， 
此 ， 我 们 不 再 需要 op 这 个 词法 符号 标签 了 。 对 于 标签 为 X 的 备 选 分 文 ， 


ANTLR 会 自动 生成 enterX () 和 exitX () 。 


public interface LExprListener extends ParseTreeListener { 
void enterMult(LExprParser.MultContext ctx); 
void exitMult(LExprParser.MultContext ctx); 
void enterAdd(LExprParser.AddContext ctx); 
void exitAdd(LExprParser.AddContext ctx); 
void enterInt(LExprParser.IntContext ctx); 
void exitInt(LExprParser.IntContext ctx); 


需要 注意 的 是 ，ANTLR 也 为 不 同 的 备 选 分 文生 成 了 特定 的 上 下 文 对 象 

(EContext 的 子 类 ) ， 并 以 标签 命名 。 这 样 的 上 下 文 对 象 中 的 getter 方 
法 被 限制 为 只 能 获取 对 应 备 选 分 文中 的 内 容 。 例 如 ，IntContext 只 有 一 
个 INT ( 方法 。 我 们 可 以 在 enterInt () 中 调用 ctx.INT () ， 但 是 不 
能 在 enterAdd () 中 调用 它 。 


监听 人 如 和 访问 句 方 法 是 非常 精彩 的 设计 。 通 过 在 事件 方法 中 实现 具体 
逻辑 ， 我 们 成 功 地 在 封装 语言 类 应 用 程序 的 同时 ， 获 得 了 可 被 复 用 的 
语法 。ANTLR 甚 至 帮 我 们 生成 了 代码 的 框架 。 尽 管 如 此 ， 直 到 现在 ， 
我 们 编写 的 程序 还 是 过 于 人 简单， 以 至 于 在 实现 的 过 程 中 ， 我 们 都 没有 


遇 到 这 样 一 个 常见 问题 : 有 些 时 候 ， 事 件 方法 需要 传递 局 部 调用 的 结 
果 或 者 其 他 信息 。 


7.5 在 事件 方法 中 共享 信息 


不 论 是 出 于 收集 信息 还 是 计算 的 目的 ， 民 好 的 编程 实践 应 该 使 用 传 参 
和 返回 值 ， 而 非 类 成 员 或 者 其 他 的 “全 局 变量 ”。 但 是 ， 问 题 在 于 ， 
ANTLR 自 动 生 成 的 监听 器 方法 是 不 带 自 定义 返回 值 和 参数 的 。 同 样 ， 
ANTLR 生 成 的 访问 铬 方法 也 不 市 目 定义 参数 。 


在 本 世 中 ， 我 们 将 会 研究 在 不 改变 事件 方法 签名 的 前 所 下 ， 用 它们 来 
传递 数据 的 机 制 。 我 们 将 会 使 用 三 种 方法 实现 上 一 世 提 到 的 ， 基 于 
LExpr 表 达 式 语法 的 示例 计算 嚣 程序。 其中， 第 一 种 方法 使 用 访问 器 方 
法 来 返回 值 ， 第 二 种 使 用 类 成 员 在 事件 方法 之 间 共 至 数据 ， 第 三 种 通 
过 对 语法 分 析 树 的 广 护 进行 标注 来 存储 相关 数据 。 


1. 使 用 访问 器 遍历 语法 分 析 树 


为 构建 一 个 基于 访问 器 的 计算 器 程序 ， 最 简单 的 方法 是 令 expr 规 则 中 的 
事件 方法 返回 子 表达 式 的 值 。 例 如 ，visitAdd () 将 返回 两 个 子 表达 式 
相 加 的 结果 ，visitmt () 方法 将 返回 整数 元 素 的 值 。 传 统 的 访问 器 通常 
不 指定 方法 的 返回 值 。 为 这 些 访问 器 方法 增加 返回 值 类 型 十 分 容易 : 

在 实现 自 定义 的 程序 逻辑 的 时 候 ， 继 承 LExprBaseVisitor<T> 并 指定 
Integer 作 为 泛 型 <T> 参 数 即 可 。 我 们 实现 的 访问 器 如 下 所 示 : 


listeners/TestLEvalVisitor.java 
public static class EvalVisitor extends LExprBaseVisitor<Integer> { 
public Integer visitMult(LExprParser.MultContext ctx) { 
return visit(ctx.e(0)) * visit(ctx.e(1)); 


} 


public Integer visitAdd(LExprParser.AddContext ctx) { 
return visit(ctx.e(0)) + visit(ctx.e(1)); 


上 


public Integer visitInt(LExprParser.IntContext ctx) { 
return Integer.value0f(ctx.INT().getText()); 
} 


EvalVisitor 从 ANTLR 的 AbstractParseTreeVisitor 类 继承 了 通用 的 visit 
() ， 我 们 将 它 作为 触发 子 树 访问 的 捷径 。 


注意 EvalVisitor 中 没有 s 规 则 对 应 的 访问 器 方法 。 在 LExprBaseVistor 中 ， 
visitS () 的 默认 实现 会 调用 预定 义 的 ParseTreeVisitorvisitChildren () 
方法 。visitChildren () 方法 返回 访问 最 后 一 个 子 节 点 的 返回 值 。 在 本 
例 中 ，visitS () 返回 对 它 的 唯一 子 廊 点 ( 即 e 节 点 ) 进行 访问 得 到 的 返 
回 值 。 因 此 ， 我 们 可 以 利用 这 种 默认 行为 。 


在 测试 代码 TestLEvalVisitorjava 中 ， 我 们 照 音 局 动 了 LExprParser 并 打印 
出 了 语法 分 析 树 。 接 下 来 ， 我 们 需要 一 些 代 码 启动 EvalVisitor， 并 在 遍 
历 完 该 树 后 打印 出 表达 式 的 计算 结 


listeners/TestLEvalVisitor.java 

EvalVisitor evalVisitor = new EvalVisitor(); 
int result = evalVisitor.visit(tree); 
System.out.println("visitor result = "+result); 


为 完成 计算 器 程序 的 构建 ， 和 之 前 章节 相同 ， 我 们 使 用 “-vistor” 选 项 来 
通知 ANTLR 生 成 访问 器 (如 果 我 们 不 希望 ANTLR 生 成 监听 器 ， 可 以 使 
用 选项 “-no-listener”) 。 下 面 是 完整 的 构建 和 测试 步 又 : 


> $ antLr4 -visitor LExpr.g4 

这 $ javac LExpr*.java TestLEvalVisitor.java 

今 $ java TestLEvalVisitor 

= 1+2*3 

今 Eor 

《(s(e(ell)+(e(e2)*(e3)))) 
visitor result = 7 


如 采 我 们 需要 让 上 自 定 义 的 程序 返回 值 ， 访 问 器 是 个 不 错 的 选择 ， 因 为 
它 使 用 的 古 Java 原 生 的 返回 值 机 制 。 如 琳 我 们 不 布 望 每 次 部 显 式 调用 访 
问 硕 方法 来 访问 于 市 态 ， 我 们 可 以 换 成 监听 此 机 制 。 然 而 不 邓 的 是 ， 
这 意味 着 我 们 放弃 了 使 用 Java 方 法 返回 值 带 来 的 整洁 。 


2. 使 用 栈 来 模拟 返回 值 


ANTLR 生 成 的 监听 器 方法 是 没有 返回 值 的 〈void 类 型 ) 。 在 语法 分 析 
树 中 ， 为 了 向 监听 器 方法 的 更 高 层 的 调用 者 返回 值 ， 我 们 可 以 将 监听 
器 的 局 部 结果 保存 在 一 个 成 员 变 量 中 。 首 先 浮现 在 我 们 脑海 里 的 是 栈 
结构 ， 就 像 Java 虚 拟 机 使 用 栈 来 临时 存储 返回 值 那样 。 即 ， 每 个 子 表达 
式 的 计算 结果 推 入 一 个 栈 中 。 下 面 是 完整 的 Evaluator 计 算 程 序 的 监听 
器 的 代码 (位 于 文件 TestLEvaluator.java 中 ) : 


listeners/TestLEvaluator.java 
public static class Evaluator extends LExprBaseListener { 
Stack<Integer> stack = new Stack<Integer>(); 
public void exitMult(LExprParser.MultContext ctx) { 
int right = stack.pop(); 
int Left = stack.pop(); 
stack.push( left * right ); 


public void exitAdd(LExprParser.AddContext ctx) { 
int right = stack.pop(); 
int Left = stack.pop(); 
stack.push(left + right); 

3 


public void exitInt(LExprParser.IntContext ctx) { 
stack.push( Integer.value0Of(ctx.INT().getText()) ); 
上 


我 们 可 以 按照 在 之 前 章节 的 TestPropertyFile 中 做 的 那样 ， 新 建 并 使 用 一 
个 ParseTree-Walker， 配 合 TestLEvaluator 来 验证 这 种 方法 的 正确 性 。 


这 $ antLr4 LExpr.g4 
今 $ javac LExprx ,java TestLEvaluator.java 
S$ java TestLEvaluator 
>》 1+2*3 
=> Eor 
《(slelel1)+(e (e2)* (e 3)))) 
stack result = 7 


这 种 使 用 栈 的 方法 不 够 优雅 ， 但 是非 党 有效。 通过 它 ， 我 们 可 以 保证 
事件 方法 在 所 有 的 监听 器 事件 之 间 的 执行 顺序 是 正确 的 。 带 返回 值 的 
访问 器 足够 优雅 ,但 是 需要 我 们 手工 触发 对 树 节 点 的 访问 。 此 外 ， 第 
三 种 方案 是 把 局 部 结果 保存 在 树 节 点 里 。 


3. 标 注 (Annotate) 语法 分 析 树 


在 上 文中 ， 我 们 使 用 了 临时 存储 在 事件 方法 之 间 共 享 数据 。 作 为 一 个 
替代 方案 ， 我 们 可 以 将 这 些 数据 直接 存储 在 语法 分 析 树 里 。 监 听 器 和 
访问 右 机 制 都 支持 树 的 标注 ， 接 下 来 我 们 会 用 监听 右 进 行 演 示 。 首 

和 完 ， 让 我 们 看 看 1+2*3 生 成 的 带 局 部 结果 标注 的 LExpr 语 法 分 析 树 ， 如 
图 7-4 所 示 。 


| 
A、 
~ 


图 7-4 LExpr 语 法 分 析 树 


其 中 ， 每 个 子 表 达 式 对 应 一 个 子 树 的 根 节 点 (同时 对 应 一 个 e 规 则 的 调 
用 ) 。 每 个 由 e 节 点 开始 的 水 平 箭头 指向 的 数字 就 是 我 们 希望 “返回 ”的 
局 部 计算 结果 。 


让 我 们 看 看 在 LExpr 语 法 中 ， 市 扩 标 注 是 怎样 使 规则 e 正 常 工 作 的 。 


listeners/LExpr.g4 
e:e MULTeé # Mult 
| e ADD e # Add 


| INT # Int 


e 的 备 选 分 文 对 应 的 监听 需 方 法 将 会 在 对 应 的 语法 分 析 树 入 点 中 保存 一 
个 结果 。 在 更 高 层 的 节点 上 ， 后 续 的 任何 加 法 或 者 乘法 事件 触发 的 方 
法 痢 可 以 通过 查找 对 应 的 于 市 点 中 存储 的 值 来 获得 子 表达 式 的 结 采 。 


通过 规则 参数 和 返回 值 为 市 点 添加 子 段 


如 肝 我 们 不 在 乎 将 语法 绑 定 在 特定 的 编程 语言 上 所 引起 灵活 性 形 失 ， 
我 们 可 以 人 简单 地 为 特定 规则 添加 一 个 返回 值 。 


e returns [int valuel] 


:ee '*' @e # Mult 
|e'+'e # Add 


| INT # Int 


ANTLR 会 将 所 有 的 参数 和 返回 值 放 入 相关 的 上 下 文 对 象 中 ， 这 样 ， 
value 束 成 为 EContext 的 一 个 字段 。 


public static cLass EContext extends ParserRuLeContext { 
public int vaLue; 


) 


因为 相应 备 选 分 支 中 的 上 下 文 类 都 继承 自 EContext， 所 有 的 监听 器 方法 
都 能 访问 这 个 值 。 例 如 ， 监 听 需 方法 可 以 直接 使 用 ctx.value=0。 


这 里 展示 的 这 种 方法 指定 某 条 规则 产生 一 个 结 末 值 ， 该 值 将 被 存储 于 
此 规则 的 上 下 文 对 象 内 。 此 过 程 使 用 了 目标 语言 的 片段 ， 从 而 导致 这 
个 语法 被 绑 定 到 了 特定 的 目标 语言 上 。 不 过 ， 这 种 方法 并 不 意味 着 这 
份 语法 被 绑 定 到 了 特定 的 应 用 程序 上 ， 因 为 其 他 程序 可 能 也 需要 此 规 
则 产生 同样 的 结 采 值 。 


我 们 暂且 假设 语法 分 析 树 的 每 个 节点 (每 个 规则 的 上 下 文 对 象 ， 都 有 
一 个 名 为 value 的 字段 ， 那 么 exitAdd () 方法 就 会 像 下 面 一 样 : 
public void exitAdd(LExprParser.AddContext ctx) { 


// e(0) .value 是 备 选 分 支 中 的 第 一 个 e 子 表 达 式 的 值 
ctx.value = ctx.e(0).value + ctx.e(1).value; // e '+' €e # Add 


} 


这 种 方法 看 似 合理 ， 然 而 不 笠 的 是 ， 在 Java 中 ， 我 们 无 法 为 
ExprContext 类 动态 添加 一 个 value 字 段 \ 像 Ruby 和 Python 那样 ) 。 为 了 
使 语法 分 析 树 的 标注 生效 ， 我 们 需要 一 种 标注 多 个 节点 的 方法 ， 这 种 
方法 不 能 是 手工 修改 ANTLR 生 成 的 相关 下 点 类 ， 因 为 ANTLR 下 次 生成 
代码 时 会 覆盖 掉 我 们 的 修改 。 


最 简单 的 标注 语法 分 析 树 节点 的 方法 是 使 用 Map 来 将 任意 值 和 节点 一 一 
对 应 起 来 。 出 于 这 个 目的 ，ANTLR 提 供 了 一 个 简单 的 名 为 
ParseTreeProperty 的 辅助 类 。 让 我 们 构建 另外 一 个 版 本 的 计算 器 程序 ， 
称 为 EvaluatorWithProps。 它 位 于 文件 TestLEvaluatorWithProps.java 中 ， 
通过 一 个 ParseTreeProperty 实 例 将 局 部 计算 结 采 和 LExpr 语 法 分 析 树 六 
点 关联 起 来 。 下 面 是 我 们 实现 的 监听 器 的 开头 部 分 : 


listeners/TestLEvaluatorWithProps.java 

public static class EvaluatorWithProps extends LExprBaseListener { 
/** 使 用 Map<ParseTree,Integer> 将 节点 映射 到 对 应 的 整数 值 *#/ 
ParseTreeProperty<Integer> values = new ParseTreeProperty<Integer>(); 


千 万 小 心 ， 如 果 你 想 要 使 用 自己 的 Map 来 代替 ParseTreeProperty， 确 保 

它 是 从 IdentityHashMap 而 非常 规 的 HashMap 派 生 的 。 我 们 使 用 同一 性 

而 非 equals () 来 标注 特定 的 节点 并 完成 测试 。 两 个 e 节 点 可 能 是 equals 
() 的 ， 但 却 并 非 内 存 中 的 同一 个 节点 实例 。 


我 们 可 以 使 用 values.put (node，value) 来 标注 一 个 节点 ， 使 用 
values.get (node) 来 获取 一 个 节点 对 应 的 值 。 这 是 完全 可 行 的， 不 过 
最 好 编写 一 些 清晰 明了 的 辅助 方法 来 增强 代码 的 可 读 性 。 


listeners/TestLEvaluatorWithProps.java 
public void setValue(ParseTree node, int value) { values.put(node, value); } 
public int getValue(ParseTree node) { return values.get(node); } 


让 我 们 从 最 简单 的 表达 式 备 选 分 文 开始 编写 监听 天 方法 。 
我 们 希望 用 它 匹 配 的 INT 词 法 符号 的 值 来 标注 它 对 应 的 语法 分 析 树 市 点 


Int 


@° 


listeners/TestLEvaluatorWithProps.java 

public void exitInt(LExprParser.IntContext ctx) { 
String intText = ctx.INT().getText(); // INT # Int 
setValue(ctx, Integer.value0f(intText)); 


对 于 加 法 子 树 ， 我 们 首先 获取 它 的 两 个 子 表达 式 (操作 数 ) 的 值 ， 然 
后 用 二 者 的 和 来 标注 该 子 树 的 根 广 上 把。 


listeners/TestLEvaluatorWithProps.java 

public void exitAdd(LExprParser.AddContext ctx) { 
int left = getValue(ctx.e(0)); // ee '+'@ # Add 
int right = getValue(ctx.e(1)); 
setValue(ctx, left + right); 


exitMult () 方法 和 上 面相 似 ， 只 是 将 加 法 换 成 了 乘法 。 


我 们 的 测试 程序 的 起 始 规 则 是 s， 因 此 我 们 必须 确保 语法 分 析 树 的 根 节 
点 包含 子 树 e (或 者 ， 我 们 也 可 以 把 e 作 为 起 始 的 解析 规则 ) 。 为 了 让 
结果 值 从 e 节 点 向 s 节 点 “ 冒 泡 *"， 我 们 实现 了 exitS () 方法 。 


listeners/TestLEvaluatorWithProps.java 
/** Need to pass e's value out of rule s : e; */ 
public void exitS(LExprParser.SContext ctx) { 
setValue(ctx, getValue(ctx.e())); // 类 比 : int s() { return e(); } 
} 


下 面 是 局 动 监听 融和 打印 根 世 点 对 应 的 表达 式 值 的 代码 : 


listeners/TestLEvaluatorWithProps.java 

ParseTreeWalker walker = new ParseTreeWalker(); 

EvaLuatorwWithProps evalProp = new EvaluatorWithProps(); 
walker.walk(evalProp, tree); 

System.out.println("properties result = " tevalProp.getValuel(tree)); 


下 面 是 构建 和 测试 的 步骤 : 


人 今 $ antLr4 LExpr.g4 
今 $ javac LExpr*.java TestLEvaluatorWithProps.java 
过 $ java TestLEvaluatorWithProps 
= 1+2*3 
= Eo 
《(s le (e1)+ (e (e 2) * (e 3)))) 
properties result = 7 


现在 ,我 们 拥有 了 计算 器 程序 的 三 个 不 同 实现 ， 也 准备 好 将 所 学 的 知 
识 应 用 于 构建 真实 的 例子 了 。 由 于 每 种 方法 都 有 优 缺 点 ， 让 我 们 来 比 
较 这 些 不 同 的 方法 ， 同 时 回顾 一 下 我 们 在 本 章 中 的 收获 。 


4. 不 同 的 数据 共享 方法 对 比 


为 获取 可 复 用 的 语法 ， 我 们 需要 使 其 与 用 户 自 定义 的 动作 分 离 。 这 意 
味 着 将 所 有 程序 自身 的 逻辑 代码 放 到 语法 之 外 的 某 种 监听 器 或 者 访问 
故 中 。 监 听 紫 和 访问 紫 通 过 操纵 语法 分 析 树 来 完成 工作 ，ANTLR 会 日 
动 生成 合适 的 接口 和 默认 实现 类 ， 以 便 对 语法 分 析 树 进行 届 历 。 但 
征 ， 由 于 事件 方法 的 签名 是 固定 的 ， 无 法 由 程序 自行 决定 ， 我 们 找到 
了 三 种 在 事件 方法 间 共 享 数据 的 方案 。 


:原生 的 Java 调 用 栈 : 访问 器 返回 一 个 用 户 指定 类 型 的 值 。 不 过 ， 如 来 
访问 器 需要 传递 参数 ， 那 束 必 须 使 用 下 面 两 种 方案。 


-基于 栈 的 : 在 上 下 文 类 中 维护 一 个 栈 子 段 ， 以 与 Java 调 用 栈 相同 的 方 
式 ， 模 拟 参数 和 返回 值 的 入 栈 和 出 栈 。 


.标注 : 在 上 下 文 类 中 维护 一 个 Map 字 段 ， 用 对 应 的 值 来 标注 节点 。 


这 三 种 方案 都 能 将 程序 的 具体 逻辑 封装 在 特定 的 对 象 内 ， 从 而 使 其 与 
语法 本 身 完全 解 耕 。 除 此 之 外 ， 它 们 各 有 利弊。 我 们 需要 综合 考虑 实 
际 问 题 以 及 个 人 喜好 ， 来 决定 使 用 哪 种 方案 。 当 然 ， 我 们 也 可 以 在 同 
一 个 程序 中 同时 使 用 多 种 解决 方案 。 


使 用 访问 吉方 法 的 代码 具有 民 好 的 可 读 性 ， 这 是 因 为 它们 直接 调用 其 
他 的 访问 器 方法 来 获得 局 部 计算 结果， 同时 能 像 其 他 方法 一 样 返回 

值 。 这 一 点 既是 优点 也 是 焉 上 后。 访问 医 方 法 必须 显 式 访问 它们 的 子 市 
扩 ， 而 监 昕 此 无 须 如 此 。 因 为 访问 紫 的 接口 是 通用 的 ， 因 此 在 其 中 无 
法 使 用 目 定 义 的 参数 。 访 问 器 必须 使 用 其 他 两 种 方案 之 一 来 解决 调用 
子 下 点 的 访问 吉方 法 时 的 传 参 问 题 。 访 问 需 方法 的 空间 效率 较 高 ， 因 
为 它 在 某 一 时 刻 只 需 保存 少量 的 局 部 结果。 在 完成 对 树 的 裔 历 之 后 ， 
局 部 结果 束 不 存在 了 。 虽 然 访问 器 方法 能 够 返回 值 ， 但 是 所 有 的 值 都 
必须 具有 相同 的 类 型 ， 其 他 方案 不 会 受到 这 样 的 限制 。 


基于 栈 的 解决 方案 能 够 使 用 栈 来 模拟 参数 和 返回 值 ， 但 是 ， 在 手工 操 
纵 栈 的 过 程 中 ， 存 在 失误 的 可 能 性 。 这 种 情况 可 能 在 监听 右 方 法 没有 
直接 调用 其 他 的 监听 器 方法 时 发 生 。 作 为 开发 者 ， 我 们 必须 确保 ， 在 
未 来 的 事件 方法 调用 中 ， 推 入 栈 中 的 内 容 被 正确 地 弹出 。 栈 可 以 传递 
多 个 参数 值 和 多 个 返回 值 。 基 于 栈 的 解决 方案 同样 具有 较 高 的 空间 效 
率 ， 因 为 它们 不 会 在 树 中 存储 任何 东西 。 所 有 局 部 结果 的 存储 在 树 电 
历 完 成 后 都 会 被 释放 。 


树 标 注 是 我 个 人 的 首选 解决 方案 ， 因 为 它 允 许 我 同事 件 方法 提供 任意 
言 思 来 操纵 语法 分 析 树 中 的 各 个 万 点 。 通 过 该 方案 ， 我 可 以 传递 多 个 
任意 类 型 的 参数 值 。 在 很 多 情况 下 ， 标 注 比 存储 转瞬 即 逝 的 值 的 栈 更 
好 。 使 用 它 ， 在 众多 方法 中 来 回 传递 数据 也 更 不 容易 失误 。 这 种 方案 
的 唯一 缺点 是 ， 在 整个 志 历 的 过 程 中 ， 局 部 结果 都 会 被 保留 ， 因 此 具 
有 更 大 的 内 存 消耗 。 


另 一 方面 ， 某 些 程序 恰好 需要 标注 语法 分 析 树 的 方案 ， 例 如 8.4 节 。 该 
程序 需要 对 语法 分 析 树 进行 多 次 肖 历 ， 将 第 一 趟 遍历 得 到 的 数据 完整 
地 储存 在 树 中 是 合理 的 ， 这 样 ， 第 二 趋 裔 历 束 能 非常 容易 地 获取 这 些 
数据 。 总 之 ， 对 和 树 进 行 标注 的 方案 异 彰 灵活 ， 同 时 内 存 占用 也 处 于 可 
接受 的 范围 。 


现在 ,我们 知道 了 如 何 使 用 树 监听 占 和 访问 占 来 实现 基本 的 语言 类 应 
用 程序 ， 是 时 候 基 于 这 些 技 术 来 构建 一 些 真 正 的 工具 程序 了 。 这 殊 是 


我 们 下 一 章 所 要 完成 的 工作 。 


第 8 章 构建 真实 的 语言 类 应 用 程序 


在 之 前 章节 的 学 习 中 ， 我 们 已 经 掌握 了 通过 监听 器 和 访问 器 来 调用 上 自 
定义 程序 的 方法 ， 因 此 ， 编 写 一 些 实用 程序 的 时 机 已 经 成 熟 。 我 们 将 
会 基于 第 6 章 中 完成 的 CSV、JSON 和 Cymbol 语 法 ， 由 浅 入 深 地 构造 四 
个 监听 器 (同样 ， 我 们 也 可 以 使 用 访问 器 ， 它 同样 简单 )。 


第 一 个 实用 程序 是 读 取 CSV 文 件 的 加 载 器 ， 这 样 的 CSV 文 件 可 以 看 作 
一 种 二 维 列表 的 数据 结构 。 接 着 ， 我 们 将 会 解决 将 JSON 文 本 翻译 成 
XML 文 件 的 问题 。 之 后 ， 我 们 将 会 读 取 Cymbol 程 序 ， 使 用 
DOT/graphviz 将 其 函数 调用 依赖 图 可 视 化 。 最 后 ， 我 们 会 为 Cymbol 构 
造 一 个 真实 的 符号 表 ， 用 于 检测 未 定义 的 变量 和 画 数 ， 确 保 变量 和 画 
数 被 正确 运用 。 验 证 器 需要 对 语法 分 析 树 进行 多 趟 扫描 ， 因 此 ， 我 们 
可 以 用 这 个 例子 来 展示 ， 如 何在 一 趟 扫描 中 收集 数据 ， 并 在 后 续 过 程 
中 使 用 。 


下 面 让 我 们 从 最 简单 的 程序 开始 。 


8.1 加 载 CSV 数 据 


我 们 的 目标 是 编写 一 个 目 定 义 的 监听 器 ， 将 逗号 分 隅 符 文 件 (CSV) 
中 的 数据 加 载 到 一 种 精心 设计 的 数据 
文 定 一 件 其 他 数据 读 取 表 甚 至 一 个 配置 文件 读 取 需 都 能 够 完成 的 事 
情 。 我 们 会 为 每 个 行 建立 一 个 Map， 其 中 包含 从 列 名 到 字段 的 映射 。 因 
此 ， 对 于 如 下 输入 文件 : 
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listeners/t.csv 
Details,Month,Amount 

Mid Bonus,June,"$2,000" 
;January,"""zippo""" 
Total Bonuses,"","$5,000" 


我 们 预期 的 “由 Map 组 成 的 List* 如 下 所 示 : 


[{Details=Mid Bonus, Month=June, CO 2 000} 
{Details=, Month=January, Amount="""zippo"""}, 
{Details=Total Bonuses, Month="", Amount="$5,000"}] 


为 获得 更 精确 的 监听 器 方法 ， 让 我 们 对 6.1 广 中 完成 的 CSV 语 法 的 备 选 
分 支 进 行 标记 。 


listeners/CSV.g4 
grammar CSV; 


file : hdr row+ ; 
hdr : row ; 


row : field (',' field)* '\r'? '\n' 


field 
TEXT # text 
| STRING # string 
| # empty 


TEXT : ~[,\N\r"J+ ， 
STRING » a (Cs PT ; 


除 此 之 外 ， 这 个 CSV 语 法 和 之 前 的 版 本 相同 


我 们 可 以 从 定义 所 需 的 数据 结构 开始 ， 逐 步 完成 这 个 监听 器 的 实现 。 
首先 ， 我 们 需要 一 个 核心 数据 结构 rows， 它 是 一 种 由 Map 组 成 的 List 。 
其 次 ， 我 们 还 需要 一 组 列 名 ， 它 来 源 于 标题 行 header。 在 对 一 行 数据 的 
处 理 过 程 中 ， 我 们 会 将 其 所 有 字段 值 放 入 一 个 临时 列表 
currentRowFieldValues 中 ， 并 在 最 终 完 成 对 该 行 处 理 的 时 候 ， 将 列 名 映 
出 到 这 些 字 段 值 上 。 


下 面 就 是 我 们 的 监听 器 的 开始 部 分 : 


listeners/LoadCSV.java 
public static class Loader extends CSVBaseListener { 
public static final String EMPTY = "" 
/** 这 个 列表 中 的 每 个 元 素 是 一 个 代表 一 行 数据 的 Map， 该 Map 是 从 字段 名 到 字段 值 的 映射 


List<Map<String,String>> rows = new ArrayList<Map<=String, String>>(); 


/** 列 名 的 列表 A 
List<String> header; 
/## 构造 一 个 存放 当前 行 中 所 有 字段 值 的 列表 记 


List<String> currentRowFieldValues; 


下 列 三 个 规则 方法 处 理 字 段 值 的 方式 是 : 提取 合适 的 字符 串 ， 并 将 其 
加 入 currentRow-FieldValues 。 


listeners/LoadCSV.java 

public void exitString(CSVParser.StringContext ctx) { 
currentRowFieldValues.add(ctx.STRING() .getText()); 

} 


public void exitText(CSVParser.TextContext ctx) { 
currentRowFieldValues.add(ctx.TEXT().getText()); 
} 


public void exitEmpty(CSVParser.EmptyContext ctx) { 
currentRowFieldValues.add (EMPTY); 
} 


在 处 理 每 行 数 据 之 前 ， 我 们 需要 从 首 行 中 获取 全 部 列 名 。 虽 然 标题 行 
在 语法 上 只 是 一 个 普通 的 行 ， 但 是 我 们 需要 将 它 和 普通 的 数据 行 区 别 
对 待 。 这 意味 着 需要 检查 上 下 文 。 我 们 不 妨 暂时 假设 在 首 行 的 exitRow 
() 方法 执行 结束 后 ，currentRowFieldValues 中 就 包含 了 全 部 的 列 名 。 
我 们 只 需要 从 其 中 提取 字段 值 即 可 填充 header 。 


listeners/LoadCSV.java 

public void exitHdr(CSVParser.HdrContext ctx) { 
header = new ArrayList<String>(); 
header.addAll (currentRowFieldValues); 


接着 我 们 回 过 头 来 处 理 行 数据 ， 过 程 需 要 两 个 操作 : 开始 和 结束 
对 一 行 的 处 理 。 当 开始 对 一 行 的 处 理 时 ， 我 们 需要 创建 〈 或 者 清除 ) 
currentRowFieldValues， 以 备 接收 后 续 数 据 。 


listeners/LoadCSV.java 
public void enterRow(CSVParser.RowContext ctx) { 
currentRowFieldValues = new ArrayList<String>(); 


} 


在 完成 对 一 行 的 处 理 时 ， 我 们 需要 考虑 上 下 文 。 如 果 我 们 刚刚 处 理 的 
行 是 标题 行 ， 那 就 什么 都 不 做 ， 因 为 列 名 不 是 数据 。 在 exitRow () 方 
法 中 ， 我 们 可 以 通过 查看 父 节 点 的 getRuleIndex () 的 返回 值得 知 当前 
的 上 下 文 (或 者 查看 父 节 点 的 类 型 是 否 是 HdrContext) 。 如 果 当 前 行 是 
一 个 数据 行 ， 我 们 就 创建 一 个 Map， 同 步 人 遍历 header 中 的 列 名 和 
currentRow-FieldValues 中 的 字段 值 ， 并 将 映射 天 系 放 入 该 Map 中 。 


listeners/LoadCSV.java 
public void exitRow(CSVParser.RowContext ctx) { 
// 如 果 当 前 行 是 标题 行 ， 什 么 都 不 做 
// if ( ctx.parent instanceof CSVParser.HdrContext ) return; 或 者 : 
if ( ctx.getParent().getRuleIndex() == CSVParser.RULE hdr ) return; 
// 当前 行 是 数据 行 
Map<String, String> m = new LinkedHashMap<String, String>(); 
int i = 0; 
for (String v : currentRowFieldValues) { 
m.put(header.get(i), v); 
i++; 


} 


rows.add(m); 


这 就 是 将 CSV 数 据 读 入 精心 设计 的 数据 结构 所 需 的 全 部 工作 。 在 使 用 
一 个 ParseTree-Walker 完 成 对 语法 分 析 树 的 遍历 后 ， 我 们 的 LoadCSV 类 
中 的 main () 方法 就 能 打印 出 包含 全 部 数据 的 rows。 


listeners/LoadCSV.java 

ParseTreeWalker walker = new ParseTreeWalker(); 
Loader Loader = new Loader(); 
walker.walk(loader, tree); 
System.out.println(loader.rows); 


下 面 是 构建 和 测试 的 步骤 : 


$ antLr4 CSV.g4 

$ javac CSV*.java LoadCSV.java 

$ java LoadCSV t.csv 

[{Details=Mid Bonus, Month=June, Amount="$2,000"}, {Details=, Month=January, 
Amount="""zippo"""}, {Details=Total Bonuses, Month="", Amount="$5,000"}] 


在 读 取 数 据 之 后 ， 我 们 可 能 希望 将 其 翻译 为 另外 一 种 语言 一 一 这 也 是 
我 们 下 一 闻 所 要 研究 的 内 容 。 


8.2 将 JSON 翻 译 成 XML 


许多 网 络 服务 返回 JSON 数 据 ， 有 时 候 ， 我 们 和 希望 将 一 些 JSON 数 据 输 入 
某 个 只 接受 XML 的 程序 。 让 我 们 以 6.2 节 中 得 到 的 JSON 语 法 为 基础 ， 构 
建 一 个 从 JSON 到 XML 的 翻译 器 。 我 们 的 目标 是 读 取 这 样 的 输入 : 


listeners/t.json 

{ 
"description"”: "An imaginary server config file", 
"logs" : {"level":"verbose", "dir":"/var/log"}, 
"host" : "antlr.org", 
"admin": ["parrt", "tombu"], 
"aliases": [] 

} 


并 给 出 等 价 的 XML 输出 : 


<description>An imaginary server config file</description> 
<logs> 
<Llevel>verbose</level> 
<dir>/var/log</dir> 
</LogSs> 
<host>antlr.org</host> 
<admin> 
<element>parrt</element> 
<element>tombu</element> 
</admin> 
<aliases></aliases> 


其 中 ，<element> 是 一 个 我 们 需要 在 翻译 过 程 中 生成 的 标签 。 


和 CSV 语 法 一 样 ， 让 我 们 首先 对 JSON 语 法 中 的 备 选 分 文 做 一 定 的 标 
记 ， 以 便 ANTLR 生 成 更 精确 的 监听 需 方 法 。 


listeners/JSON.g4 
object 
'{' pair (',' pair)* '}"' # AnObject 
| 一 ! # EmptyObject 


'[' value (',' value)* ']' # Array0fValues 
| i # EmptyArray 


我 们 会 用 同样 的 方法 处 理 value 规 则 ， 不 过 稍微 做 出 了 一 些 改变 。 除 了 
其 中 三 个 备 选 分 文 之 外 ， 其 他 都 必须 返回 它 匹配 到 的 文本 值 ， 因 此 ， 
我 们 可 以 对 它们 进行 同样 的 标记 ， 使 得 语法 分 析 树 遍历 器 为 这 些 备 选 
分 文 触发 相同 的 监听 右 事 件 。 


listeners/JSON.g4 
value 
E STRING # String 
| NUMBER # Atom 
| object # 0bjectValue 
| array # ArrayValue 
| trye’ # Atom 
| 'false' # Atom 
| wt # Atom 


一 


我 们 的 翻译 器 的 实现 需要 令 每 条 规则 返回 与 它 匹配 到 的 输入 文本 等 价 
的 XML。 为 跟踪 这 些 局 部 结果 ， 我 们 将 会 使 用 xml 字 段 和 两 个 辅助 方法 
来 对 语法 分 析 树 进行 标注 。 


listeners/JSON2XML.java 

public static class XMLEmitter extends JSONBaseListener { 
ParseTreeProperty<String> xml = new ParseTreeProperty<String>(); 
String getXML (ParseTree ctx) { return xml.get(ctx); } 
void setXML(ParseTree ctx, String s) { xml.put(ctx, s); } 


我 们 会 将 每 棵 子 树 翻 译 完 的 字符 哩 存储 在 该 子 树 的 根 世 点 中 。 这 样 ， 
工作 在 语法 分 析 树 更 高 层 世 点 上 的 方法 就 能 够 获得 它们 ， 从 而 构造 出 
更 大 的 字符 串 。 语 法 分 析 树 的 根 节 点 中 存储 的 字符 串 束 是 最 终 的 翻译 
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让 我 们 从 最 简单 的 翻译 开始 。value 规 则 中 的 Atom 备 选 分 文 “返回 ”( 也 
束 古 在 Atom 广 态 对 应 的 标注 值 ， 它 匹配 的 词法 符号 中 的 文本 内 容 
(ctx.getText () 获得 对 应 规则 匹配 到 的 文本 ) 。 


listeners/JSON2XML.java 

public void exitAtom(JSONParser.AtomContext ctx) { 
setXML(ctx, ctx.getText()); 

} 


除了 需要 额外 剥离 双 引 号 之 外 (stripQuotes () 是 该 文件 提供 的 辅助 方 
法 ) ， 对 字符 串 的 处 理 基 本 和 上 述 过 程 基本 相同 。 


listeners/JSON2XML.java 

public void exitString(JSONParser.StringContext ctx) { 
setXML(ctx, stripQuotes(ctx.getText())); 

} 


如 果 rule () 方法 匹配 到 的 是 一 个 对 象 或 者 一 个 数组 ， 它 就 可 以 将 这 些 
复合 元 素 的 翻译 结果 找 贝 到 自身 的 语法 分 析 树 节点 中 ， 下 列 代码 给 出 
了 实现 细 市 : 


listeners/JSON2XML.java 

public void exitObjectValue(JSONParser.0bjectValueContext ctx) { 
// 类 比 String value() {return object();} 
setXML(ctx, getXML(ctx.object())); 

} 


在 翻译 完成 value 规 则 对 应 的 所 有 元 素 后 ， 我 们 需要 处 理 键 值 对 ， 将 它 
们 转换 为 标签 和 文本 。 生 成 的 XML 的 标签 名 来 源 于 STRING': "value 备 
选 分 文中 的 STRING。 开 始 和 结束 标签 之 间 的 文本 来 源 于 value 子 节点 。 


listeners/JSON2XML.java 

public void exitPair(JSONParser.PairContext ctx) { 
String tag = stripQuotes(ctx.STRING().getText()); 
JSONParser.ValueContext vctx = ctx.value(); 
String x = String.format("<%s>%s</%s>\n", tag, getXML(vctx), tag); 
setXML (ctx, x); 


JSON 的 对 象 由 一 系列 键 值 对 组 成 。 因 此 ， 对 于 每 个 object 规 则 在 
AnObject 备 选 分 文中 发 现 的 键 值 对 ， 我 们 将 其 对 应 的 XML 追加 到 语法 
分 析 树 中 储存 的 结果 之 后 。 


listeners/JSON2XML.java 
public void exitAnObject(JSONParser.AnObjectContext ctx) { 
StringBuilder buf = new StringBuilder(); 
buf .append("\n"); 
for (JSONParser,.PairContext pctx : ctx.pair()) { 
buf .append (getXML (pctx)); 
} 
setXML (ctx, buf.toString()); 


public void exitEmptyObject(JSONParser.EmptyObjectContext ctx) { 


setXML (ctx, ""); 
} 


处 理 数 组 的 方式 与 之 相似 ， 从 各 子 志 点 中 获取 XML 结果 ， 将 其 分 别 放 
入 <element> 标 签 之 后 连接 起 来 即 可 。 


listeners/JSON2XML.java 
public void exitArray0OfValues(JSONParser.Array0fValuesContext ctx) { 
StringBuilder buf = new StringBuilder(); 


buf.append("\n"); 

for (JSONParser.ValueContext vctx : ctx.value()) { 
buf.append("<element>"); // 将 所 有 的 元 素 连 接 成 合法 的 XML 文本 
buf.append(getXML(vctx) ) ; 
buf.append("</element>"); 
buf.append("\n"); 

有 

setXML(ctx, buf.toString()); 

有 


public void exitEmptyArray(JSONParser.EmptyArrayContext ctx) { 
setXML(ctx, ""); 
} 


最 后 ， 我 们 需要 用 最 终 的 结 采 一 一 由 根 元 素 object 或 者 array 生 成 的 结果 
标注 语法 分 析 树 的 根 节 点 。 


listeners/JSON.g4 
json: object 
| array 


了 


我 们 可 以 用 一 个 简单 的 set 操 作 来 完成 这 项 工作 。 


listeners/JSON2XML.java 

public void exitJson(JSONParser.JsonContext ctx) { 
setXML(ctx, getXML(ctx.getChild(0))); 

} 


下 面 是 构建 和 测试 的 步骤 : 


$ antLr4 JSON.g4 
$ javac JSON*.java 
$ java JSON2XML t.json 


<description>An imaginary server config file</description> 
<logs> 
<level>verbose</level> 


翻译 并 非 总 是 像 JSON 转 XML 一 样 直 来 直 往 。 上 述 例 子 的 意义 在 于 向 我 
们 展示 了 解决 翻译 问题 的 方法 : 分 而 治之 ， 然 后 将 局 部 结果 合并 (如 
果 你 查看 一 下 源 代 码 目 孙 ， 束 可 以 发 现 另 一 个 版 本 的 代码 
JSON2XML_STjava， 其 中 使 用 了 StringTemplate 来 生成 给 出， 此 外 ， 还 
有 一 个 版 本 的 代码 JSON2XML_DOM.java， 用 于 构建 XML 的 DOM 
树 ) 。 


好 了 ， 我 们 已 经 处 理 了 足够 多 的 数据 摘 述 语言 ， 下 面 让 我 们 对 编程 语 
言 做 一 些 有 趣 的 事情 吧 。 


8.3 生成 调用 图 


软件 的 编写 和 维护 并 非 一 帆 风 顺 的 ， 这 也 是 我 们 试图 使 用 工具 来 提高 
生产 率 和 效率 的 原因 。 例 如 ， 在 过 去 的 几 十 年 中 ， 我 们 见 到 了 测试 杠 
架 、 代 码 窗 雷 工 具 和 代码 分 析 工 具 的 爆炸 性 增长 。 此 外 ， 用 可 视 化 的 
树 来 检视 类 继承 天 系 也 是 一 件 好 事 ， 这 是 大 多 数 开发 环境 所 文 持 的 。 
另 一 种 我 喜爱 的 可 视 化 方案 称 为 调用 网， 其 中 的 和 点 是 男 效 ， 万 点 间 
的 有 辣 边 是 函数 的 调用 。 


在 本 广 中 ， 我 们 将 使 用 来 目 6.4 节 的 Cymbol 语 法 编写 一 个 调用 图 生成 
器 。 它 的 简单 会 让 你 大 吃 一 惊 ， 尤 其 古 当 你 看 到 它 结 采 的 精妙 之 后 。 
为 让 你 大 致 了 解 一 下 我 们 弃 图 达成 的 目标 ， 请 看 下 面 的 函数 和 函数 调 
用 : 


listeners/t.cymbol 
int main() { fact(); a(); } 


float fact(int n) { 
print(n); 


if ( n==0 ) then return 1; 
return n * fact(n-1); 


} 

void a() { int x = b(); if false then {c(); d();} } 
void b() { c(); } 

void c() { b(); } 

void d() { } 

void e() { } 


我 们 期 望 生 成 如 图 8-1 所 示 的 调用 图 : 


Ee 了 


图 8-1 期望 生 成 的 调用 图 


可 视 化 展示 的 优点 在 于 人 们 能 够 轻易 分 辨 出 其 中 的 异常 。 例 如 ，e ( 
节点 是 一 个 孤立 节点 ， 这 意味 着 它 没有 被 任何 函数 调用 ， 因 此 是 无 用 
代码 (dead code) 。 只 需 扫 一 眼 ， 我 们 就 发 现 了 一 个 可 以 丢弃 的 画 
数 。 此 外 ， 我 们 还 可 以 轻易 通过 检查 图 中 的 循环 来 发 现 递归 ， 例 如 fact 
U >fact ) 和 b () >cW 2b 


为 了 生成 这 样 的 可 视 化 调用 图 ， 我 们 需要 读 取 Cymbol 程 序 ， 根 据 它 产 
生 一 个 DOT 文 件 〈 然 后 利用 graphviz 进 行 预 郧 ) 。 例 如 ， 我 们 需要 基于 
之 前 的 例子 tcymbol 生 成 一 个 如 下 所 示 的 DOT 文 件 。 


digraph G { 
ranksep=.25; 
edge [arrowsize=.5] 
node [shape=circle, fontname="ArialNarrow", 
fontsize=12, fixedsize=true, height=.45]; 
main; fact; a; b; c; d; e; 
main -> fact; 
main -> a; 


fact -> print; 
fact -> fact; 


输出 结果 包含 一 个 类 似 “ranksep=.25; ”的 模板 语句 ， 其 后 是 一 列 节 点 和 
力 。 为 了 捕获 孤立 节点 ， 我 们 需要 保证 为 每 个 函数 名 生成 一 个 节点 定 


义 ， 即 使 在 它 不 与 进出 边 相 连接 的 情况 下 。 如 采 不 对 这 种 情况 进行 特 
殊 处 理 ， 这 样 的 节点 将 不 会 出 现在 图 中 。 注 意 其 中 节点 定义 行 末 尾 的 e 
万 氮 。 


main; fact; a; b; c; d; e; 


我 们 的 筑 略 相当 直 日 。 当 语法 分 析 瑚 过 到 函数 声明 的 时 候 ， 我 们 的 程 
序 将 会 把 该 画 数 的 名 字 加 入 一 个 列表 中 ， 然 后 在 一 个 名 为 
currentFunctionName 的 字段 中 记 杂 它 。 当 语法 分 析 器 过 到 一 个 函数 调用 
时 ， 我 们 的 程序 将 会 记录 下 一 条 从 currentFunctionName 到 被 调用 函数 名 
的 边 。 


首先 ， 我 们 为 Cymbolg4 中 的 一 些 备 选 分 支 进行 标记 ， 以 获取 更 精确 的 
监听 器 方法 。 


listeners/Cymbol.g4 


expr: ID '(' exprList? ')' # Call 
| expr '[' expr 'J' # Index 
| '-' expr # Negate 
| '!1' expr # Not 
| expr '*' expr # Mult 
| expr ('+'|'-') expr # AddSub 
| expr '==' expr # Equal 
| ID # Var 
| INT # Int 
| '(' expr ')'!' # Parens 


之 后 ， 让 我 们 将 所 有 与 图 相关 的 代码 都 封 疼 进 一 个 类 中 ， 作 为 我 们 的 
语言 类 应 用 程序 的 基础 。 


listeners/CallGraph.java 
static class Graph { 
// 这 里 使 用 的 是 org.antlr.v4.runtime.misc: OrderedHashSet, MultiMap 
Set<String> nodes = new 0rderedHashSet<String>(); // 函数 的 列表 
MultiMap<String, String> edges = // 调用 者 -> 被 调用 者 
new MultiMap<String, String>(); 
public void edge(String source, String target) { 
edges.map(source, target); 


} 


有 了 节点 和 边 的 集合 ， 我 们 就 可 以 在 Graph 类 中 编写 一 个 Java 的 小 方法 
toDOT () 来 完整 地 获取 对 应 的 DOT 代 码 。 


listeners/CallGraph.java 
public String toDOT() { 
StringBuilder buf = new StringBuilder(); 
buf.append("digraph G {\n"); 
buf.append(" ranksep=.25;\n"); 
buf.append(" edge [arrowsize=.5]\n"); 
buf.append(" node [shape=circle, fontname=\"ArialNarrow\",\n"); 
buf.append(" fontsize=12, fixedsize=true, height=.45];\n"); 
buf.append(" "); 
for (String node : nodes) { // 首先 打印 所 有 节点 
buf.append(node ) ; 
buf.append("; "); 


buf.append("\n"); 
for (String src : edges.keySet()) { 
for (String trg : edges.get(src)) { 
buf .append(" "); 
buf .append (src); 
buf.append(" -> "); 
buf .append (trg); 
buf.append(";\n"); 
上 


} 
buf.append("}\n"); 
return buf.toString(); 


现在 ， 我 们 需要 做 的 一 切 就 是 使 用 监听 器 填充 这 些 数 据 结构 。 该 监听 
器 需要 两 个 用 于 记录 的 字段 。 


listeners/CallGraph.java 
static class FunctionListener extends CymbolBaseListener { 


Graph graph = new Graph(); 
String currentFunctionName = null; 


它 只 需要 监听 两 个 方法 。 第 一 个 是 当 语 法 分 析 器 遇 到 函数 定义 时 的 方 
法 ， 令 其 记录 当前 函数 名 。 


listeners/CallGraph.java 
public void enterFunctionDecl (CymbolParser.FunctionDeclContext ctx) { 


currentFunctionName = ctx.ID().getText(); 
graph.nodes.add(currentFunctionName); 


接着 ， 当 语法 分 析 吉 发 现 函 数 调 用 时 ， 程 序 就 会 记录 一 条 从 当前 函数 
到 被 调用 的 函数 的 边 


listeners/CallGraph.java 
public void exitCall (CymbolParser.CallContext ctx) { 


String funcName = ctx.ID().getText(); 
// 将 当前 函数 映射 到 被 调用 函数 上 
graph.edge(currentFunctionName, funcName); 


需要 注意 的 是 ， 男 数 调用 不 能 出 现在 符 套 的 代码 块 或 者 声明 中 ， 如 下 
面 代 码 中 的 a () 。 


void a() { int x = b(); if false then {c(); d();} } 


无 论语 法 分 析 树 遍历 器 在 何 处 遇 到 函数 调用 ， 它 都 会 触发 exitCall 0) 
监听 怖 方才 四 


通过 语法 分 析 树 和 上 面 的 FunctionListener 类 ， 我 们 就 可 以 用 我 们 在 遍历 
中 使 用 我 们 目 定 义 的 监听 右 ， 并 产生 我 们 期 望 的 输出 。 


listeners/CallGraph.java 

ParseTreeWalker walker = new ParseTreeWalker(); 
FunctionListener collector = new FunctionListener(); 
walker.walk(collector, tree); 
System.out.println(collector.graph.toString()); 
System.out.println(collector.graph.toDOT()); 


在 输出 DOT 代 码 之 前 ， 上 述 代码 会 打印 出 函数 名 和 边 的 列表 。 


$ antLr4 Cymbol.g4 
$ javac Cymbol*.java CallGraph.java 
$ java CaLLGraph t.cymbol 
edges: {main=[fact, al]l, fact=[print, fact], a=[b, c, dl], b=[c], c=[b]}, 
functions: [main, fact, a, b, c, d, el] 
digraph G { 
ranksep=.25; 
edge [arrowsize=.5] 


自然 ， 此 时 只 需 将 以 “digraph G{" 开 头 的 字符 串 复 制 粘 贴 到 graphviz 
中 ， 束 可 以 预 宽 函 数 调用 图 。 


在 本 市 中 ， 只 用 了 少量 代码 我 们 束 编 写 了 一 个 函数 调用 图 生成 带 。 为 
了 展示 Cymbol 语 法 的 复 用 性 ， 在 下 一 证 中， 我们 将 在 不 修改 它 的 情况 
下 利用 它 来 编写 一 个 完全 不 同 的 程序 。 除 此 之 外 ， 我 们 还 会 用 两 个 不 
同 的 监听 右 对 同一 模 语 法 分 析 树 进行 两 趟 过 历 。 


8.4 验证 程序 中 符号 的 使 用 


在 为 类 似 Cymbol 的 编程 语言 编写 解释 右 、 编 译 央 或 者 翻译 上 船 之 前 ， 我 
们 需要 确保 Cymbol 程 序 中 使 用 的 符号 (标识 符 ， 用 法 正确 。 在 本 市 
中 ， 我 们 计划 编写 一 个 能 做 出 以 下 校 验 的 Cymbol 验 证 右 : 


引用 的 变量 必须 有 可 见 的 (在 作用 域 中 ) 定义 


引用 的 函数 必须 有 定义 〈 函 数 可 以 以 任何 顺序 出 现 ， 即 函数 定义 提 


-变量 不 可 用 作画 数 


` 芳 数 不 可 用 作 变 量 


要 满足 以 上 全 部 条 件 ， 我 们 需要 做 一 点 工作 ， 因 此 理解 本 例 可 能 会 伦 
费 比 其 他 例子 更 多 的 时 间 。 不 过 ， 我 们 的 收获 将 为 编写 真实 的 语言 处 
理工 具 页 定 坚实 基础 。 


让 我 们 首先 来 看 一 些 包 含 不 同 标 识 答 引用 的 样 例 代码 ， 其 中 一 些 标识 
从 是 无 效 的 。 


listeners/vars.cymbol 
int f(int x, float y) { 

g();  // 前 向 引用 是 没 问 题 的 

i = 3; // 错误 : i 未 定义 

g = 4; // 错误 : 9 不 是 变量 

return x + y; // x，y 已 定义 ， 因 此 是 正确 的 
} 


void g() { 
int x = 0; 
float y; 
y 三光 A 已 定义 
f(s // 后 向 引用 是 没 问题 的 
有 (0 // 错误 : 无 此 哨 | 类 
y(); // 错误 : y 不 是 函 净 


x = f; // 错误 : f 不 是 变量 


为 验证 一 个 程序 中 的 所 有 内 容 都 符合 先前 的 定义 ， 我 们 需要 打印 函数 
的 列表 和 它们 的 局 部 变量 ， 再 加 上 全 局 符号 ( 范 数 和 全 局 变量 ) 。 此 
外 ， 我 们 应 该 在 发 现 问题 的 时 候 给 出 一 个 错误 。 例 如 ， 对 于 之 前 的 输 
入 ， 让 我 们 编写 一 个 名 为 CheckSymbols 的 程序 ， 它 将 产生 下 列 输出 : 


过 $ java CheckSymbols vars.cymbol 
《 locals:[] 
function<f:tINT>: [<x:tINT>, <y:tFLOAT>] 
Loealsis [Xx; VY] 
function<g:tVOID>:[] 
globals:[f, gl] 
line 3:4 no such variable: i 
line 4:4 g is not a variable 
Line 13:4 no such function: 2z 
line 14:4 y is not a function 
line 15:8 f is not a variable 


解决 该 问题 的 关键 在 于 一 种 恰当 的 数据 结构 ， 称 为 符号 表 。 我 们 的 程 
序 会 将 符号 存储 在 符号 表 里 ， 然 后 通过 它 来 检查 标识 符 引 用 的 正确 


性 。 在 下 一 节 中 ， 我 们 将 会 看 到 这 种 数据 结构 ， 并 利用 它 来 解决 验证 


语言 的 实现 着 通 弟 把 存储 符号 的 数据 结构 称 为 符号 表 。 实 现 这 样 的 语 
言 意味 着 建立 复 洒 的 符号 表 结构 。 如 果 一 门 语言 允许 相同 的 标识 符 在 
不 同 的 上 下 文中 具备 不 同 含义 ， 那 么 对 应 的 符号 表 实 现 束 需要 将 符号 
按照 作用 域 分 组 。 一 个 作用 域 仅仅 是 一 组 符号 的 集合 ， 例 如 一 组 函数 
的 参数 列表 或 者 全 局 作用 域 中 定义 的 变量 和 函数 。 


符号 表 本 喘 仅仅 是 人 符号 定义 的 仓库 一 一 它 不 进行 任何 验证 工作 。 我 们 
需要 按照 之 前 确定 的 规则 ， 检 查 表达 式 中 引用 的 变量 和 了 画 数 ， 以 完成 
代码 的 验证 。 符 号 验证 的 过 程 中 有 两 种 基本 的 操作 ， 定 义 符号 和 解析 
符号 。 定 义 一 个 符号 意味 着 将 它 添加 到 作用 域 中 。 解 析 一 个 符号 意味 
着 确定 该 符号 引用 了 哪个 定义 。 在 某 种 意义 上 ， 解 析 一 个 符号 意味 着 
寻找 “最 接近 ”的 符号 定义 。 最 接近 的 定义 域 台 是 最 内 层 的 代码 块 。 例 
如 ， 下 面 的 Cymbol 示 例 代 码 包含 了 不 同 作用 域 (以 黑 圈 数字 标记 ) 下 


网 得当 是 头 汪 


listeners/vars2.cymbol 
int x; 


int x; 

x = 1; // x 解析 到 了 当前 作用 域 的 x， 而 非 全 局 作用 域 的 x 

y = 2; // y 在 当前 作用 域 中 不 存在 ， 但 是 在 全 局 作用 域 中 解析 成 功 
@ { int y= x; } 


} 
@ void blint z) 
Or} 


全 局 作用 域 (VD 包含 了 变量 x 和 y， 以 及 函数 a () 和 b () 。 画 数 定义 在 全 
局 作用 域 中 ， 但 是 建立 了 新 的 作用 域 ， 该 作用 域 包 含 钞 数 的 参数 (如 

果 有 的 话 ) ， 参 见 扩 和 (S)。 画 数 内 部 作用 域 (和 (@)) 也 可 以 舱 套 产生 
一 个 新 的 作用 域 。 局 部 变量 声明 于 峰 套 在 对 应 函数 作用 域 中 的 局 部 作 

用 域 (3、 多 和 (@) 中 。 


由 于 符号 x 锌 定义 了 两 次 ， 我 们 无 法 避免 在 同一 个 集合 中 处 理 所 有 标识 
符 时 的 冲突 问题 。 这 就 是 作用 域 存 在 的 意义 。 我 们 维护 一 组 作用 域 ， 

在 同一 个 作用 域 中 一 个 标识 符 只 允许 被 定义 一 次 。 我 们 还 为 每 个 作用 
域 维护 一 个 指 癌 父 作 用 域 的 指针 ， 这 样 ， 我 们 束 能 在 外 层 作 用 域 中 寻 
找 符号 定义 。 全 部 的 作用 域 构成 一 棵 树 ， 如 图 8-2 所 示 。 


作用 域 嵌 套 等 级 


©@ | GlobalScope 


level 0 
symbols = [x, y, a, b] 
@ | FunctionSsymbol FunctionSymbol 
name = "a" name = "b" level 1 
symbols =[] symbols = [z] 
加 | 
evel 2 
symbols = [x] symbols= 
9 
symbols = [y] level 3 


图 8-2 全 部 作用 域 构 成 的 树 


辆 图 中 的 数字 代表 源 代码 中 的 作用 域 。 任 何 节 点 到 根 节 点 (全 局 作用 
域 ) 的 路 径 构成 了 一 个 作用 域 栈 。 当 寻找 一 个 符号 定义 时 ， 我 们 从 引 
用 所 在 的 作用 域 开始 ， 沿 着 作用 域 树 向 上 查找 ， 直 至 找到 其 定义 为 
上 上 上 。 


在 本 例 中 ， 为 避免 实现 一 个 符号 表 的 烦琐 工作 ， 我 从 参考 文献 
【Language Implementa-tion Patterns[Par09] 】 一 书 的 第 6 章 中 拷贝 了 符号 
表 的 源 代码 。 我 建议 你 阅读 一 下 这 份 代 码 中 的 BaseScope、 
GlobalScope、LocalScope、Symbol、EFunctionSymbol 以 及 
VariableSymbol， 以 熟悉 符号 表 的 实现 过 程 。 将 这 些 类 放 在 一 起 ， 就 是 


一 个 符号 表 了 ， 我 们 暂且 认为 它们 能 够 正常 工作 。 有 了 符号 表 之 后 ， 
我 们 就 可 以 着 手 编写 我 们 的 验证 器 了 。 


2. 验 证 右 的 架构 


为 完成 该 验证 器 ， 让 我 们 从 全 局 的 角度 进行 一 下 规划 。 我 们 可 以 将 这 
个 问题 分 解 为 两 个 关键 的 操作 ， 定 义 和 解 析 。 对 于 定义 ， 我 们 需要 监 
听 变 量 和 函数 定义 的 事件 ， 生 成 Symbol 对 象 并 将 其 加 入 该 定义 所 在 的 
作用 域 中 。 在 函数 定义 开始 时 ， 我 们 需要 将 一 个 新 的 作用 域 “ 入 栈 ”， 
然后 在 它 结束 时 将 该 作用 域 “出 栈 ”。 


对 于 解析 和 校 验 符号 引用 ， 我 们 需要 监听 表达 式 中 的 变量 和 函数 引用 
的 事件 。 对 于 每 个 引用 ， 我 们 要 验证 是 否 存 在 一 个 匹配 的 符号 定义 ， 

以 及 该 引用 是 否 正确 使 用 了 该 符号。 虽然 这 种 策略 看 上 去 相当 直 日 ， 

但 是 实际 上 存在 一 个 难题 : 一 个 Cymbol 程 序 可 以 在 函数 声明 之 前 就 调 
用 它 。 我 们 称 之 为 前 向 引用 (forward reference) 。 为 了 文 持 这 种 情 

况 ， 我 们 需要 对 语法 分 析 树 进行 两 趟 饥 历 ， 第 一 趟 遍历 一 一 或 者 说 第 
一 个 阶段 一 一 对 包括 函数 在 内 的 符号 进行 定义 ， 第 二 趟 遍历 中 束 可 以 
看 到 文件 中 全 部 的 函数 了 。 下 列 代 码 触发 了 对 语法 分 析 树 的 两 趟 通 

历 : 


listeners/CheckSymbols.java 

ParseTreeWalker walker = new ParseTreeWalker(); 
DefPhase def = new DefPhase(); 

walker.walk(def, tree); 

// 新 建 一 个 阶段 ， 将 def 中 的 符号 表 信 息 传递 给 该 阶段 

RefPhase ref = new RefPhase(def.globals, def.scopes); 
walker.walk(ref, tree); 


在 定义 阶段 ， 我 们 将 会 创建 很 多 个 作用 域 。 我 们 必须 保持 对 这 些 定 义 

域 的 引用 ， 否 则 垃圾 回收 占 会 将 它们 清除 挥 。 为 保证 从 号 表 在 从 定义 

阶段 到 解析 阶段 的 转换 过 程 中 始终 存在 ， 我 们 需要 退 踩 这 些 作用 域 。 

最 合乎 逻辑 的 存储 位 置 是 语法 分 析 树 本 身 (或 者 使 用 一 个 将 节点 和 值 

映射 起 来 的 标注 Map) 。 这 样 ， 在 沿 语法 分 析 树 下 降 的 过 程 中 ， 查 找 一 
个 引用 对 应 的 作用 域 束 变 得 十 分 容易 ， 因 为 钞 数 或 者 局 部 代码 块 对 应 

的 树 世 点 可 以 获得 指 网 目 身 作 用 域 的 指针 。 


3. 定 义 和 解 析 符 号 


确定 了 全 局 的 策略 ， 我 们 束 可 以 开始 编写 验证 瑚 了 ， 不 妨 从 DefPhase 开 
始 。 它 需要 三 个 字段 : 一 个 全 局 作用 域 的 引用 、 一 个 用 于 追踪 我 们 创 

建 的 作用 域 的 语法 分 析 树 标注 器 ， 以 及 一 个 指向 当前 作用 域 的 指针 。 

监听 器 方法 enterFile () 局 动 了 整个 验证 过 程 ， 并 创建 了 一 个 全 局 作用 
域 。 最 后 的 exitFile () 方法 负责 打印 结果 。 


listeners/DefPhase.java 
public class DefPhase extends CymboLBaseListener { 
ParseTreeProperty<Scope> scopes = new ParseTreeProperty<Scope>(); 
GlobalScope globals; 
Scope currentScope; // 当前 符号 的 作用 域 
public void enterFile(CymbolParser.FileContext ctx) { 
globals = new GlobalScope(null); 
currentScope = globals; 


} 


public void exitFile(CymbolParser.FileContext ctx) { 
System.out.println(globals); 
上 


当 语法 分 析 器 发 现 一 个 函数 定义 时 ， 我 们 的 程序 就 需要 创建 一 个 
FunctionSymbol 对 象 。FunctionSymbol 对 象 有 两 项 职责 : 作为 一 个 符 
号 ， 以 及 作为 一 个 包含 参数 的 作用 域 。 为 构造 一 个 嵌 套 在 全 局 作用 域 
中 的 画 数 作用 域 ， 我 们 将 一 个 函数 作用 域 “< 入 栈 *。“ 入 栈 ” 是 通过 将 当前 
作用 域 设置 为 该 函数 作用 域 的 父 作用 域 ， 并 将 它 本 身 设 置 为 当前 作用 
域 来 完成 的 。 


listeners/DefPhase.java 

public void enterFunctionDecl (CymbolParser.FunctionDeclContext ctx) { 
String name = ctx.ID().getText(); 
int typeTokenType = ctx.type().start.getType(); 
Symbol.Type type = CheckSymbols.getType(typeTokenType); 


// 新 建 一 个 指向 外 围 作用 域 的 作用 域 ， 这 样 就 完成 了 入 栈 澡 作 

FunctionSymbol function = new FunctionSymbol (name, type, currentScope); 
currentScope.define(function); // 在 当前 作用 域 中 定义 函数 

saveScope(ctx, function); // 入 栈 : 设置 函数 作用 域 的 父 作用 域 为 当前 作用 域 
currentScope = function; // 现在 当前 作用 域 就 是 函数 作用 域 了 


} 


void saveScope(ParserRuleContext ctx, Scope s) { scopes.put(ctx, s); } 


方法 saveScope () 使 用 新 建 的 函数 作用 域 标注 了 该 functionDecl 规 则 节 
点 ， 这 样 之 后 进行 的 下 一 个 阶段 就 能 轻易 地 获取 相应 的 作用 域 。 在 函 


数 结束 时 ， 我 们 将 函数 作用 域 “ 出 栈 "， 这 样 当前 作用 域 束 恢复 为 全 局 
作用 域 。 


listeners/DefPhase.java 

public void exitFunctionDecl (CymbolParser.FunctionDeclContext ctx) { 
System.out.println(currentScope); 
currentScope = currentScope.getEnclosingScope(); // 作用 域 “ 出 栈 ” 


局 部 作用 域 的 实现 与 之 类 似 。 我 们 在 监听 器 方法 enterBlock () 中 将 一 
个 作用 域 入 栈 ， 然 后 在 exitBlock () 中 将 其 出 栈 。 


现在 ， 我 们 已 经 能 够 很 好 地 处 理 作 用 域 和 函数 定义 了 ， 接 下 来 让 我 们 
完成 对 参数 和 变量 的 定义 。 


listeners/DefPhase.java 

public void exitFormalParameter(CymbolParser.FormalParameterContext ctx) { 
defineVar(ctx.type(), ctx.ID().getSymbol()); 

} 


public void exitVarDecl (CymbolParser.VarDeclContext ctx) { 
defineVar(ctx.type(), ctx.ID().getSymbol()); 
} 


void defineVar(CymbolParser.TypeContext typeCtx, Token nameToken) { 
int typeTokenType = typeCtx.start.getType(); 
Symbol.Type type = CheckSymbols.getType(typeTokenType); 
VariableSymbol var = new VariableSymbol (nameToken.getText(), type); 
currentScope.define(var); // 在 当前 作用 域 中 定义 符号 


这 样 ， 我 们 束 完 成 了 定义 阶段 代码 的 编写 。 


下 面 编写 解析 阶段 的 代码 ， 育 先 ， 我 们 将 当前 作用 域 设 置 为 定义 阶段 
中 得 到 的 全 局 作用 域 。 


listeners/RefPhase.java 

public RefPhase(GLobaLScope globals, ParseTreeProperty<Scope> scopes) { 
this.scopes = scopes; 
this.globals = globals; 

} 

public void enterFile(CymbolParser.FileContext ctx) { 
currentScope = globals; 


} 


之 后 ， 当 树 抽 历 右 触发 Cymbol 函 数 和 代码 块 的 进入 和 退出 方法 时 ， 我 
们 根据 定义 阶段 在 树 中 存储 的 值 ， 将 currentScope 设 为 对 应 的 作用 域 。 


listeners/RefPhase.java 

public void enterFunctionDecl (CymbolParser.FunctionDeclContext ctx) { 
currentScope = scopes.get(ctx); 

} 

public void exitFunctionDecl (CymbolParser.FunctionDeclContext ctx) { 
currentScope = currentScope.getEnclosingScope(); 


} 


public void enterBlock(CymbolParser.BlockContext ctx) { 
currentScope = scopes.get(ctx); 


public void exitBlock(CymbolParser.BlockContext ctx) { 
currentScope = currentScope.getEnclosingScope(); 


} 


在 人 裔 历 妖 正确 设置 作用 域 之 后 ， 我 们 就 可 以 在 变量 引用 和 函数 调用 的 
监听 右 方 法 中 解析 符号 了 。 当 遍历 器 遇 到 一 个 变量 引用 时 ， 它 调用 
exitVar () ， 该 方法 使 用 resolve () 方法 在 当前 作用 域 的 符号 表 中 查找 
该 变量 名 。 如 果 resolve 方 法 在 当前 作用 域 中 没有 找到 相应 的 符号 ， 它 
会 沿 着 外 围 作用 域 链 查 找 。 必 要 情况 下 ，resolve 将 会 一 直 辐 上 得 找 ， 
直至 全 局 作用 域 为 止 。 如 果 它 没有 找到 合适 的 定义 ， 则 返回 null。 此 
外 ， 若 resolve () 方法 找到 的 符号 是 函数 而 非 变量 ， 我 们 就 需要 生成 


一 个 错误 消 轧 。 


listeners/RefPhase.java 

public void exitVar(CymbolParser.VarContext ctx) { 
String name = ctx.ID().getSymbol().getText(); 
Symbol var = currentScope.resolve(name); 
if ( var==null ) { 


CheckSymbols.error(ctx.ID().getSymbol(), "no such variable: "+name); 
} 
if ( var instanceof FunctionSymbol ) { 
CheckSymbols.error(ctx.I1D().getSymbol(), name+" is not a variable"); 
} 


处 理 函 数 调用 的 方法 与 之 基本 相同 。 如 果 找 不 到 定义 ， 或 者 找到 的 定 
义 是 变量 ， 那 么 我 们 束 输 出 一 个 错误 。 


最 后 ， 下 面 的 构建 和 测试 过 程 能 够 产生 之 前 预期 的 输出 结 


$ antLr4 Cymbol.g4 

$ javac Cymbol*.java CheckSymboLs .java *Phase.java *Scope.java *Symbol.java 
$ java CheckSymbols vars.cymbol 

locals:[] 

function<f:tINT>: [<x:tINT>, <y:tFLOAT>] 


在 完成 两 趋 遍历 的 代码 后 ， 我 们 的 验证 句 就 大 功 告 成 了 。 此 过 程 涉及 
了 很 多 人 处理 细节 ， 不 过 这 些 努 力 都 是 值得 的 ， 因 为 它 是 编写 你 自己 的 
语言 处 理工 具 的 一 个 很 好 的 起 点 。 本 例 中 监听 器 的 实现 只 有 区 区 150 行 
Java 代 码 ， 符 号 表 的 实现 也 仅 有 100 行 。 如 果 你 还 不 急于 编写 一 个 需 

符号 表 的 程序 ， 那 就 无 须 在 意 它 的 细节 。 重 点 在 于 ， 一 种 用 于 追踪 和 
验证 符号 的 广为人知 的 符号 表 实 现 已 经 存在 了 ， 它 并 不 是 什么 高 深 葛 
测 的 技术 。 欲 了 解 更 多 符号 表 管 理 的 内 容 ， 我 不 客气 地 推荐 你 购买 和 
阅读 我 的 【Language Implementation Patterns[Par09]】 一 书 。 


如 肝 你 在 迄今 为 止 的 阅读 过 程 中 都 能 保持 很 好 的 同步 ， 那 么 你 的 状态 
不 错 ! 现在 ， 你 不 仅 可 以 根据 语言 的 参考 手册 构建 语法 ， 还 可 以 赋予 
这 些 语法 生命 一 一 通过 实现 监听 万 来 完成 有 用 的 工作 。 当 然 ， 你 现在 
可 能 过 到 了 一 些 难 题 ， 不 过 你 的 功力 已 经 相当 深厚 了 。 


本 章 是 本 书 第 二 部 分 的 最 后 一 章 。 当 你 掌握 了 关键 的 ANTLR 技 能 
后 ， 你 会 期 符 下 一 部 分 市 来 的 ANTLR 高 级 用 法 的 。 


本 书 由 “ePUBw.COM” 整 理 ，ePUBw.COM 提供 
最 新 最 全 的 优质 电子 书 下 载 ! ! ! 


第 二 部 分 高 级 特性 


在 第 二 部 分 中 ， 我 们 学 习 了 如 何 从 范例 代码 和 参考 手册 中 提取 一 门 语 
言 的 抽象 结构 〈 句 法 ) ， 并 使 用 ANTLR 对 该 句法 进行 正式 表述 。 为 了 
开发 语言 类 应 用 程序 ， 我 们 编写 了 一 些 树 监听 器 和 访问 器 ， 用 它们 操 
纵 目 动 生成 的 语法 分 析 树 。 这 样 ， 我 们 就 掌握 了 使 用 ANTLR 来 融 效 地 
处 理 大 多 数 问 题 的 关键 技巧 。 


第 三 部 分 的 主要 内 容 是 ANTLR 的 高 级 用 法 。 首 先 ， 我 们 将 会 学 习 
ANTLR 的 自动 异常 处 理 机 制 。 其 次 ， 我 们 将 会 探究 如 何在 语法 中 直接 
嵌入 代码 片段 ， 以 便 在 解析 过 程 中 实时 地 产生 输出 或 者 执行 计算 。 再 


次 ， 我 们 将 会 看 到 如 何 基于 运行 时 信息 ， 通 过 语义 判定 来 动态 开局 或 
者 关闭 语法 中 的 备 选 分 文 。 最 后 ， 我 们 将 会 介绍 一 些 词法 方面 的 “ 黑 魔 


法 ”。 


第 9 章 错误 报告 与 恢复 


同 绝 大 多 数 软件 一 样 ， 在 我 们 开发 一 门 语法 的 过 程 中 ， 需 要 修复 很 多 
的 错误 。 直 到 我 们 编写 完 (并 调试 完 ) 语法 之 后 ， 生 成 的 语法 分 析 器 
才能 识别 所 有 的 有 效 输入 语句 。 在 这 个 过 程 中 ，ANTLR 的 错误 消息 合 
有 让 证 的 信息 ， 有 助 于 我 们 调试 语法 中 产生 的 问题 。 一 旦 拥有 了 正确 
的 语法 ， 我 们 就 必须 处 理 不 合 语法 的 语句 ， 这 些 语句 可 能 来 源 于 用 户 
输入 ， 甚 至 是 其 他 程序 在 错误 情况 下 自动 生成 的 。 


在 上 述 情 况 下 ， 我 们 的 语法 分 析 絮 对 非法 输入 的 啊 应 整 会 大 大 影响 生 
产 力 。 换 句 话 说， 无 论 在 我 们 的 开发 过 程 中 ， 还 是 在 用 户 的 实际 使 用 
过 程 中 ， 一 个 只 会 输出 “ 呢 ， 出 错 了 ”并且 一 过 到 语法 错误 吏 退 出 的 语 
法 分 析 丹 盈 无 用 处 。 


使 用 ANTLR 的 开发 者 将 会 无 偿 获 得 它 提 供 的 优秀 的 错误 报告 功能 和 复 
杂 的 错误 恢复 机 制 。ANTLR 生 成 的 语法 分 析 右 能 够 目 动 地 在 过 到 句法 
错误 时 产生 丰富 的 错误 消 轧 ， 并 且 能 在 大 多 数 情况 下 成 功 地 完成 重新 
同步 。 这 样 的 语法 分 析 紫 甚至 能 够 保证 只 为 每 个 句法 错误 产生 一 条 销 
误 消息 。 在 本 章 中 ， 我 们 将 会 学 习 ANTLR 自 动 生 成 的 语法 分 析 器 使 用 


的 目 动 错误 报告 和 恢复 集 上 略 。 我 们 还 将 了 解 如 何 修 改 默 认 的 错误 处 理 
机 制 ， 使 之 符合 一 些 典 型 情况 下 的 需求 ， 以 及 如 何在 特定 的 程序 中 定 


制 错误 消息 。 
9.1 错误 处 理 入 门 


描述 ANTLR 的 错误 恢复 策略 ， 最 好 的 方法 是 观察 一 个 ANTLR 上 自动 生成 
的 语法 分 析 器 对 错误 输入 产生 的 啊 应 。 下 面 让 我 们 看 一 个 简单 的 类 Java 
语言 的 语法 ， 它 的 类 定义 中 包 舍 字段 和 方法 ， 其 中 的 方法 具有 简单 的 
语句 和 表达 式 。 该 语法 将 成 为 本 节 和 本 章 中 其 余 各 万 的 例子 的 核心 。 


errors/Simple.g4 
grammar Simple,; 


prog: ”classDef+ ; // 匹配 一 个 或 多 个 类 定义 


classDef 
'class' ID 'f' member+ '}' // 一 个 类 县 有 若干 个 成 员 
{System.out.println("class "+$ID.text);} 


member 
ne TD "a // 字段 定义 
{System.out.println("var "+$ID.text);} 
| 'int' f=ID '(' ID ')' '{' stat '}' // 方法 定义 
{System.out.println("method: "+$f.text),;} 
stat: expr “7 
{System.out.println("found expr: "+$stat.text);}- 
| ID '=' expr 
{System.out.println("found assign: "+$stat,text);} 
expr: INT 
| ID wt TNT 21: 
INT : [0-9]+ ; 
ID 3 [a-zA-Z]+ ; 
WS : [ NtNrNn]+ -> Skip ; 


( 注 : ANTLR 4.3 之 后 ， 原 先 的 $stat.text 需 要 改 成 $ctx.getText () 。 
一 一 译 者 注 ) 


其 中 的 内 般 动 作 会 打印 出 语法 分 析 天 发 现 的 相应 元 素 。 出 于 方便 和 催 
洁 的 目的 ， 我 们 使 用 内 藤 动 作 来 代替 语法 分 析 树 监听 夯 。 我 们 将 会 在 
第 10 章 中 学 习 更 多 有 关 动 作 的 知识 。 


首先 ， 我 们 运行 语法 分 析 万 ， 给 出 一 些 正 确 的 输入 ， 观 察 正 浓 情 况 下 
的 输出 。 


$antlr4 Simple.g4 
> $ javac Simple*.java 
过 $ grun Simple prog 
> class T { int i; } 
—> EoF 
《var i 

class 下 


我 们 没有 从 语法 分 析 器 中 得 到 任何 错误 ， 它 正常 地 执行 了 任务 并 使 用 
打印 结 来 报告 ， 对 变量 i 和 类 定义 T 的 识别 已 经 成 功 完 成 。 


现在 ， 让 我 们 试 着 输入 一 个 类 ， 它 的 方法 定义 中 包含 一 个 非法 的 赋值 
语句 。 
过 $ grun Simple prog -gui 


> class T { 
> int f(x) {a=345; } 


=> } 

= Eo 

《Line 2:19 mismatched input '4' expecting ';' 
method : f 
class T 


在 词法 符号 4 处 ， 语 法 分 析 器 没有 发 现 期 望 的 “; ”， 因 此 报告 了 一 个 错 
误 。 输 出 的 line 2: 19 表 明 ， 有 误 的 词法 符号 位 于 第 2 行 的 第 20 个 字符 处 
(字符 位 置 从 0 开始 ) 。 因 为 “-gui" 选 项 的 存在 ， 我 们 还 可 以 看 到 一 棵 

将 错误 万 点 高 亮 显 示 〈 稍 后 会 讲 到 ) 的 语法 分 析 树 ， 如 图 9-1 所 示 。 


PTIO9 


classDef 


class T { member } 


CR。 


int f ( x ) { stat } 


> 


a = expr 4 > 


图 9-1 错误 节点 高 亮 显示 的 语法 分 析 树 


在 这 个 例 了 于 中 ， 输 入 包含 两 个 多 余 的 词法 符号 ， 因 此 ， 语 法 分 析 如 针 
对 这 样 的 错误 给 出 了 一 个 通用 的 错误 信息 。 不 过 ， 如 果 输 入 仅 有 一 个 
多 余 的 词法 符号 ， 语 法 分 析 莫 束 能 够 表现 得 更 加 知 能 ， 指 出 存在 一 个 
多 余 的 词法 符号 。 在 下 面 的 测试 中 ， 在 类 名 和 类 定义 体 之 间 存 在 一 个 
净 休 鸭 " ” 


过 $ grun SimpLe prog 

> class TT ; { int i; } 

-Eor 

《Line 1:8 extraneous input ';' expecting 'f{' 
var 1 
class 下 


语法 分 析 器 在 “; ”处 报告 了 一 个 错误 ， 并 且 给 出 了 一 个 信息 量 更 大 的 
结果 ， 因 为 它 知 道 “;，” 后 面 的 词法 符号 是 日 已 期望 看 到 的 。 这 个 特性 
叫 作 单词 法 符号 移 除 (single-token deletion) ， 实 现 这 个 特性 只 需要 语 
法 分 析 央 假设 多 余 的 那个 词法 符号 不 存在 ， 然 后 继续 解析 过 程 即 可 。 


同样 ， 在 语法 分 析 器 检测 到 词法 符号 缺失 的 时 候 ， 它 也 可 以 完成 单词 
法 符号 补 全 (single-token insertion) 。 下 面 让 我 们 去 掉 最 后 的 *}”， 看 
看 会 发 生 什 么 。 


过 $ grun SimpLe prog 

= class TH 

> 1int f(x) {a = 3; } 

=》 Eop 

《 found assign: a=3; 
method: f 
Line 3:0 missing '}' at '<EOF>' 
class 下 


与 编程 语言 理论 有 关 的 幽默 二 则 


显然 ， 伟 大 的 计算 机 科学 家 Niklaus Wirth 极 富 幽默 感 。 他 曾经 开玩笑 
说 ， 欧 济 人 以 “ 传 引 用 "方式 称呼 他 (欧洲 人 通常 能 将 他 的 名 字 正 人 确 读 


作 “Ni-klaus Virt*) ， 美 国人 以 “ 传 值 方式 称呼 他 〈 将 他 的 名 字 误 读 
作 “Nickle-less Worth>”) 


在 Compiler Construction 1994 会 议 上 ，Kristen Nygaard (Simula 的 发 明 
者 ) 讲 了 一 个 故事 ， 有 一 次 在 一 门 编程 语言 的 理论 课 上 ， 他 说 ,“ 强 类 
型 (strong typing) 是 法 西 斯 主义 >， 意 指 自己 偏好 弱 类 型 的 编程 语言 。 
后 来 ， 一 个 学 生 问 他 ， 为 什么 用 力 打 字 (strong typing) 是 法 西 斯 主 
义 o 

语法 分 析 器 报告 它 示 能 找到 结尾 的 “}” 词 法 符号 。 

另外 一 种 常见 的 句法 错误 发 生 在 语法 分 析 需 做 出 决策 的 天 键 位 置 ， 晋 
余 的 输入 文本 不 符合 规则 的 任意 一 个 备 选 分 文 。 例 如 ， 如 果 我 们 在 字 


段 声 明 中 遗漏 了 变量 名 ，member 规 则 的 两 个 备 选 分 文 就 都 无 法 匹配 这 
样 的 输入 。 因 此 ， 语 法 分 析 妖 报告 没有 找到 可 行 的 备 选 分 支 。 


过 $ grun Simple prog 

= class TT { int ; } 

= Eo 

《 line 1:14 no viable alternative at input ‘'int;' 
class T 


错误 报告 中 的 “int* 和 “; ”之 间 没 有 空格 ， 这 是 因为 ， 我 们 令 词 法 分 析 锅 
在 空白 符号 的 WS () 规则 中 执行 了 skip () 指令 。 
如 条 存在 词法 错误 ，ANTLR 也 会 给 出 一 个 错误 消 妃 ， 指 明 它 无 法 将 一 


个 或 者 多 个 字符 匹配 为 词法 符号 。 例 如 ， 如 采 输 入 一 个 完全 未 知 的 字 


符 ， 我 们 束 会 得 到 一 个 词法 符号 识别 错误 。 


今 $grun Simple prog 

class # { int i; } 

=》 Eor 

《 line 1:6 token recognition error at: '#' 
Line 1:8 missing ID at “人 
var i 
class <missing ID> 


由 于 我 们 没有 给 出 一 个 有 效 的 类 名 ， 单 词法 符号 补 全 机 制 生 成 了 一 个 
missing ID 作为 类 名 ， 这 样 ， 类 名 的 词法 符号 就 不 至 于 为 空 了 。 如 果 需 
要 控制 语法 分 析 器 对 这 样 的 词法 符号 的 生成 机 制 ， 覆 盖 
DefaultErrorStrategy 类 中 的 getMissingSymbol () 方法 即 可 (参见 9.5 


下) 


诈 


O 


你 可 能 注意 到 了 ， 本 节 中 的 示例 代码 显示 ， 尽 管 发 生 了 错误 ， 语 法 分 
析 过 程 还 是 照常 进行 。 除 了 产生 良好 的 错误 消息 和 利用 剩余 的 输入 进 
行 重新 同步 之 外 ， 语 法 分 析 器 还 必须 能 够 移动 到 合适 的 位 置 继续 语法 
分 析 过 程 。 


例如 ， 当 通过 classDef 规 则 中 的 子规 则 member 匹 配 类 成 员 时 ， 语 法 分 析 
器 不 应 该 在 遇 到 非法 的 成 员 定义 时 结束 classDef。 这 就 是 语法 分 析 器 能 
够 跳 过 错误 的 原因 一 一 一 个 句法 错误 不 应 该 让 语法 分 析 器 结束 当前 规 
则 。 语 法 分 析 句 将 会 尽 最 大 可 能 匹配 到 一 个 合法 的 类 定义 。 我 们 将 会 


在 9.3 太 深入 人 研究 这 个 主题 。 不 过 ， 下 和 完 让 我 们 来 看 看 如 何 修改 标准 的 
错误 报告 机 制 ， 以 利于 调试 语法 和 为 用 户 拓 供 更 恰当 的 消 已 。 


9.2 修改 和 转发 ANTLR 的 错误 消息 


默认 情况 下 ，ANTLR 将 所 有 的 错误 消息 送 至 标准 错误 (standard 

error) ， 不 过 我 们 可 以 通过 实现 接口 ANTLRErrorListener 来 改变 这 些 消 
妃 的 目标 输出 和 内 容 。 该 接口 有 一 个 同时 应 用 于 词法 分 析 器 和 语法 分 
析 器 的 syntaxError () 方法 。syntaxError () 方法 接收 各 式 各 样 的 信 
轧 ， 无 论 是 错误 的 位 置 还 是 错误 的 内 容 。 它 还 接收 指向 语法 分 析 器 的 
引用 ， 因 此 我 们 能 够 通过 该 引用 来 查询 识别 过 程 的 状态 。 


例如 ， 下 列 错误 监听 器 (error listener) 来 自 于 文件 
TestE_Listener.java， 能 够 在 通常 的 之 有 词法 符号 信息 的 错误 消息 后 面 
打印 出 规则 的 调用 栈 : 


errors/TestE_Listener.java 
public static class VerboseListener extends BaseErrorListener { 
@Override 
public void syntaxError(Recognizer<?, ?> recognizer, 
Object offendingSymbol, 
int line, int charPositionInLine， 
String msg, 
RecognitionException e) 


{ 
List<String> stack = ((Parser)recognizer).getRuleInvocationStack(); 
Collections. reverse(stack); 
System.err.println("rule stack: "+stack); 
System.err.println("line "+line+":"+charPositionInLine+" at "+ 
offendingSymbol+"; "+msg); 
} 


使 用 这 种 方法 ， 我 们 的 程序 就 能 在 语法 分 析 器 调用 起 始 规则 之 前 ， 轻 
易 地 为 其 增加 一 个 错误 监听 融 。 


errors/TestE_Listener.java 

SimpleParser parser = new SimpleParser(tokens); 
parser.removeErrorListeners(); // 移 除 ConsoleErrorListener 
parser.addErrorListener(new VerboseListener()); // 增加 我 们 自 定义 的 错误 监听 器 
parser.prog(); // 照常 进行 解析 过 程 


在 我 们 增加 目 定 义 的 错误 监听 器 之 前 ， 我 们 需要 移 除 输出 目标 是 控制 
台 的 内 置 错 误 监 昕 大 ， 以 防 出 现 重 复 的 销 误 消 明 。 

让 我 们 输入 一 个 特殊 的 、 包 含 多 余 的 类 名 且 缺 失 字段 名 的 类 定义 ， 看 
看 现在 的 错误 消息 。 


今 $ javac TestE_Listener,java 

今 $ java TestE Listener 

class TTT{ 

> int ; 

今 } 

=》 Eo 

《 rule stack: [prog, classDef] 
line 1:8 at [@2,8:8='T',<9>,1:8]: extraneous input 'T' expecting ‘'{' 
rule stack: [prog, classDef, member] 
Line 2:6 at [@5,18:18=';',<8>,2:6]: no viable alternative at input 'int;' 
class T 


其 中 ， 栈 内 容 [prog，classDef] 显 示 ， 语 法 分 析 磊 当前 正 处 于 规则 
classDef 中 ， 该 规则 是 由 prog 调 用 的 。 注 意 词法 符号 的 信息 还 包括 对 应 
的 词法 符号 在 输入 字符 流 中 的 位 置 。 这 有 助 于 在 类 似 开 发 环境 之 类 的 
输入 中 对 错误 进行 高 亮 显 示 。 例 如 ， 词 法 符号 [@2，8: 8='T'"，<9>， 
1: 8] 显 示 ， 它 是 词法 符号 流 中 的 第 三 个 (索引 是 2， 从 0 开始 计数 ) ， 
包含 的 字符 索引 由 8 到 8， 词 法 符号 类 型 为 9， 位 于 第 1 行 第 8 个 字符 处 
(从 0 开始 计数 ，tab 符 看 作 一 个 字符 ) 。 


通过 Java Swing 技 术 ， 我 们 可 以 非常 容易 地 将 这 条 消息 使 用 一 个 对 话 框 
来 显示 ， 只 需要 修改 一 下 syntaxError () 方法 即 可 。 


errors/TestE_Dialog.java 
public static class DialogListener extends BaseErrorListener { 
@Override 
public void syntaxError(Recognizer<?, ?> recognizer, 

Object offendingSymbol, 
int line, int charPositionInLine， 
String msg, 
RecognitionException e) 


List<String> stack = ((Parser)recognizer).getRuleInvocationStack(); 

Collections.reverse(stack); 

StringBuilder buf = new StringBuilder(); 

buf.append("rule stack: "+stack+" "); 

buf.append("line "+line+":"+charPositionInLine+" at "+ 
offendingSymboL+": "+msg); 


JDialog dialog = new JDialog(); 

Container contentPane = dialog.getContentPane(); 
contentPane.add(new JLabel (buf.toString())); 
contentPane.setBackground(Color.white); 
dialog.setTitle("Syntax error"); 

dialog.pack(); 

dialog.setLocationRelativeTo(null); 
dialog.setDefaultCloseOperation(JFrame.DISPOSE ON CLOSE); 


dialog.setVisible(true); 


使 用 输入 class Tf{int int i，} 来 测试 TestE_Dialog， 可 以 看 到 如 图 9-2 所 示 
的 对 话 框 。 


GAS Syntax error 


rule stack: [prog, classDef, member] line 1:14 at [@4,14:16='int,<6>,1:14]: no viable alternative at input "intint 


图 9-2 ”测试 TestE_Dialog 对 话 框 


请 看 下 一 个 例子 ， 构 建 一 个 错误 监听 器 TestE_Listener2.java， 用 下 划 线 
标示 出 有 问题 的 词法 符号 ， 如 下 所 示 : 


$$ javac TestE Listener2.java 

过 $ java TestE Listener2 

> class T XYZ { 

> int; 

> } 

Eor 

《 line 1:8 extraneous input 'XYZ' expecting ‘'{' 
class T XYZ { 
Line 2:6 no viable alternative at input 'int;' 

int ， 


class T 


为 简单 起 见 ， 我 们 将 忽略 tab 符 charPositionInLine 并 不 是 实际 的 列 
数 ， 因 为 tab 符 并 没有 统一 的 宽度 。 下 面 的 错误 监听 器 实现 用 下 划 线 标 
示 出 了 错误 的 位 置 ， 正 如 之 前 我 们 所 看 到 的 那样 : 


errors/TestE_Listener2.java 
public static class UnderLineListener extends BaseErrorListener { 
public void syntaxError(Recognizer<?, ?> recognizer, 
Object offendingSymbol, 
int line, int charPositionInLine， 
String msg, 
RecognitionException e) 


{ 
System.err.println("line "+line+":"+charPositionInLine+" "+msg); 
underlineError(recognizer, (Token)offendingSymbol, 
line, charPositionInLine); 
} 


protected void underlineError(Recognizer recognizer, 
Token offendingToken, int line, 
int charPositionInLine) { 
CommonTokenStream tokens = 
(CommonTokenStream)recognizer.getIinputStream(); 
String input = tokens.getTokenSource().getInputStream().toString(); 


我 们 还 需要 了 解 有 关 错 误 监 听 需 的 最 后 一 件 事情 。 当 语法 分 析 器 检测 
到 有 卜 义 的 输入 序列 时 ， 它 会 通知 错误 监听 器 。 
ConsoleErrorListener 不 会 同 控 制 台 打 印 任何 东西 。 正 如 我 们 在 2.3 市 中 
所 看 到 的 那样 ， 有 歧义 的 输入 可 能 意味 着 我 们 的 语法 存在 错误 ， 语 法 
分 析 絮 不 应 该 因此 通知 用 户 。 下 面 让 我 们 来 回顾 一 下 该 节 中 有 歧义 的 


String[] Lines = input.split("\n"); 
String errorLine = Lines[Line - 1]; 
System.err.println(errorLine); 


for (int i=0; i<charPositionInLine; i++) System.err.print(" 


int start = offendingToken.getStartIndex() ; 
int stop = offendingToken.getStopIndex(); 
If ( start>=0 && stop>=0 ) { 
for (int i=start; i<=stop; i++) System.err.print("^ 人 ") ; 
} 


System.err.println(); 


语法 匹配 “f () ; ”的 两 种 不 同方 式 。 


errors/Ambig.g4 
grammar Ambig; 


stat 


: expr '»' // 表达 式 语句 
| ID '(' ')' ';' // 函数 调用 语句 
ID 人 ww) 
| INT 
[0-9]+ ; 
[a-zA-Z]+ ; 


[ \t\r\n]+ -> Skip ; 


如 条 我 们 用 这 个 语法 进行 测试 ， 我 们 不 会 看 到 有 头皮 义 的 警告 。 


默认 的 错误 监听 器 


Sy 


今 $ antLr4 Ambig.g4 
> $ javac Ambig*.java 
过 $ grun Ambig stat 
> f(); 

= Eo 


当 语法 分 析 器 检测 到 歧义 发 生 时 ， 如 有 果 硕 望 得 到 通知 ， 请 使 用 
addErrorListener () 方法 添加 一 个 DiagnosticErrorListener 的 实例 来 告知 


语法 分 析 器 。 


parser.removeErrorListeners(); // 移 除 ConsoleErrorListener 
parser.addErrorListener(new DiagnosticErrorListener()); 


此 外 ， 你 还 应 当 告 诉 语法 分 析 器 ， 你 对 所 有 的 疏 义 警告 都 感 兴趣 ， 而 
不 仅仅 是 那些 可 以 快速 检测 到 的 。 出 于 效率 方面 的 原因 ，ANTLR 的 决 
沫 机 制 并 不 生 总 能 发 现 所 有 的 监 义 信 息 。 下 面 是 令 语法 分 析 融 报告 所 
有 歧义 的 方法 : 


parser.getInterpreter() 
.SetPredictionMode(PredictionMode.LL EXACT AMBIG DETECTION ) ; 


如 果 你 在 用 grun 命 令 运行 TestRig， 加 上 选项 <-diagnostics” 令 其 使 用 
DiagnosticError-Listener 蔡 代 默 认 的 控制 台 错 误 监 昕 器 (并 打开 


LL EXACT _AMBIG_ DETECTION 选项 ) 即 可 。 


今 $ grun Ambig stat -diagnostics 
这 f(); 
= Eor 
《 line 1:3 reportAttemptingFullContext d=0, input='f();' 
Line 1:3 reportAmbiguity d=0: ambigAlts={1, 2}, input="'f();'" 


输出 结果 显示 语法 分 析 器 还 调用 了 reportAttemptingFullContext () 。 
ANTLR 在 SLL (*) 分 析 失 败 时 调用 此 方法 ， 语 法 分 析 器 会 启用 功能 
加 强大 的 完整 ALL (*) 机 制 。 详 见 13.7 节 。 


在 开发 过 程 中 使 用 上 面 提 到 的 诊断 错误 监听 器 (diagnostics error 
listener) 是 个 好 主意 ， 因 为 ANTLR 工 具 (在 生成 语法 分 析 器 时 ) 不 会 
对 上 收 义 性 语法 结构 提出 静态 警告 。 在 ANTLR 4 中 ， 只 有 运行 状态 的 语 
法 分 析 需 才能 检测 到 皮 义 。 这 吏 像 征 Java 中 静 仿 类 型 机 制 和 Python 中 动 
态 类 型 机 制 的 差别 。 


ANTLR 4 的 若干 项 改进 


在 ANTLR 4 中 ， 有 两 个 与 错误 处 理 相 关 的 重大 改进 : ANTLR 的 内 置 错 
误 恢复 机 制 更 加 优秀 ， 同 时 也 让 开发 者 能 够 更 加 容易 地 修改 错误 处 理 
策略 。 当 Sun 公 司 使 用 ANTLR 3 编写 JavaFX 的 语法 分 析 器 时 ， 他 们 注意 
到 一 个 放 错 位 置 的 分 号 会 导致 语法 分 析 器 在 搜寻 一 列 元 素 (例如 通过 
member+ 定 义 的 类 成 员 ) 的 过 程 中 提前 终止 。 现 在 ，ANTLR 4 的 语法 
分 析 器 会 试图 在 子规 则 的 识别 之 前 和 识别 过 程 中 进行 重新 同步 

(resynchronize) ， 而 非 草草 丢弃 词法 符号 并 退出 当前 规则 。 第 二 项 改 
进 允 许 开 发 者 按照 策略 模式 (Strategy pattern) 指定 自 定义 的 错误 处 理 
机 制 。 


现在 ， 我 们 已 经 深入 了 解 了 ANTLR 语 法 分 析 器 产生 的 消息 类 型 ， 以 及 
修改 和 转发 它们 的 方法 ， 接 下 来 ， 让 我 们 探索 一 下 错误 恢复 方面 的 知 


AN 
AN ” 


9.3 自动 错误 恢复 机 制 


普 误 恢复 指 的 是 允许 语法 分 析 右 在 发 现 语 法 错误 后 还 能 继续 的 机 制 。 

原则 上 ， 最 好 的 错误 恢复 来 日 人 类 在 手工 编写 的 递归 下 降 的 语法 分 析 
如 中 进行 的 干预 。 尽管 如 此 ， 按 照 我 的 经 验 ， 手 工 编 写 一 个 优秀 的 销 
误 恢复 机 制 非常 难 ， 因 为 这 个 过 程 过 于 枯燥 和 之 味 ， 极 易 出 错 。 在 本 书 
接 述 的 ANTLR 最 新 版 中 ， 我 穷尽 我 毕生 所 学 ， 基 于 多 年 的 经 验 ， 来 为 
ANTLR 语 法 提供 恨 好 的 错误 恢复 机 制 。 


ANTLR 的 错误 恢复 机 制 基于 Niklaus Wirth 的 早期 著作 【Algorithms 十 
Data Structures=Programs[Wir78]】 中 的 思想 (以 及 Rodney Topor 的 【A 
Note on Error Recovery in Recursive Descent Parsers[Top82]】， 同 时 也 包 
含 Josef Grosch 在 他 的 CoCo 语 法 分 析 器 生成 器 中 的 优秀 思想 【Efficient 


and Comfortable Error Recovery in Recursive Descent Parsers[Gro90]】 。 


下 面 是 ANTLR 将 这 些 思想 灼 合 在 一 起 的 实现 细 世 : 必要 情况 下 ， 语 法 
分 析 絮 在 遇 到 无 法 匹配 词法 符号 的 错误 时 ， 执 行 单词 法 符号 补 全 和 单 
词法 符号 移 除 。 如 果 这 些 方案 不 妥 效 ， 语 法 分 析 融 将 辐 后 查找 词法 符 


号 ， 直 到 它 遇 到 一 个 符合 当前 规则 的 后 续 部 分 的 合理 词法 符号 为 止 ， 


接着 ， 语 法 分 析 器 将 会 继续 语法 分 析 过 程 ， 仿 佛 什么 事情 都 没有 发 生 
过 一 样 。 在 本 节 中 ， 我 们 将 会 看 到 上 述 术 语 的 含义 ， 并 探究 ANTLR 是 
如 何在 错综复杂 的 情况 下 从 错误 中 恢复 的 。 下 面 让 我 们 首先 分 析 
ANTLR 使 用 的 基本 错误 恢复 策略 。 


1. 通 过 扫描 后 续 词 法 符号 来 恢复 


当面 对 真正 的 非法 输入 时 ， 当 前 的 规则 无 法 继续 下 去 ， 此 时 语法 分 析 
器 将 会 向 后 查找 词法 符号 ， 直 到 它 认 为 自己 已 经 完成 重新 同步 时 ， 它 
就 返回 原先 被 调用 的 规则 。 我 们 可 以 称 为 同步 -返回 (sync-and-return) 
策略 。 有 人 称 为 “应 急 模 式 ”(panic mode) ， 不 过 它 的 表现 相当 好 。 语 
法 分 析 器 知道 自己 无 法 使 用 当前 规则 匹配 当前 输入 。 它 会 持续 丢弃 后 
续 词 法 符号 ， 直 至 发 现 一 个 可 以 匹配 本 规则 中 断 位 置 之 后 的 某 条 子规 
则 的 词法 符号 。 例 如 ， 如 果 在 赋值 语句 中 存在 一 个 语法 错误 ， 那 么 语 
法 分 析 器 的 做 法 就 非常 合理 : 丢弃 后 续 的 词法 符号 ， 直 到 发 现 一 个 分 
号 或 者 其 他 的 语句 终结 符 为 止 。 这 种 策略 较为 激进 ， 但 是 十 分 有 效 。 
我 们 下 面 将 要 看 到 ， 这 种 基本 策略 作为 后 备 方案 ， 在 启用 之 前 ， 
ANTLR 会 试图 在 规则 内 部 进行 恢复 。 


每 个 ANTLR 自 动 生产 的 规则 方法 都 被 包 于 在 一 个 try-catch 块 内 ， 它 应 
对 语法 错误 的 措施 是 报告 该 错误 ， 并 试图 在 返回 之 前 从 该 错误 中 恢 
复 O 〇 


try { 
} 
catch (RecognitionException re) { 


_errHandler.reportError(this, re); 
_errHandler.recover(this, re); 


我 们 将 会 在 9.5 廊 中 看 到 错误 处 理 策 略 的 更 多 细 市 ， 不 过 ， 束 现在 而 
言 ， 我 们 可 以 认为 recover () 会 持续 消费 词法 符号 ， 直 到 发 现 重新 同 
步 集 合 (resynchronization set) 中 的 词法 符号 为 止 。 重 新 同步 集合 是 调 
用 栈 中 所 有 规则 的 后 续 符 号 集合 (following set) 的 并 集 。 一 条 规则 引 
用 (rule reference) 的 后 续 符 号 集合 是 能 够 立即 延续 该 规则 ， 从 而 无 须 
离开 当前 规则 的 词法 符号 集合 。 例 如 ， 给 定 一 个 备 选 分 文 assign'; '， 那 
么 规则 引用 assign 的 后 续 符 号 集合 就 是 1 '}。 如 果 该 备 选 分 文 是 
是 


续 
assign， 那 么 后 续 人 符号 集合 残 


坟 


通过 一 个 例子 来 加 深 对 重新 同步 集合 的 理解 。 请 看 下 列 语法 ， 
想象 一 下 ， 在 每 条 规则 的 调用 过 程 中 ， 语 法 分 析 右 都 会 授 踪 每 次 规则 
后 


errors/F.g4 


grammar F; 
group 
: '[' expr 'J' // expr 规则 引用 的 后 续 词 法 符号 : {']'} 
| *“(* ‘expre // expr 规则 引用 的 后 续 词法 符号 : {')'} 
expr: atom '~^' INT ; // atom 规则 引用 的 后 续 词 法 符号 : { 人 '} 
atom: ID 
| INT 
INT : [0-9]+ ; 
ID: 3: [a-zA-Z]+ ; 
WS : [ \t\r\n]+ -> Skip ; 


请 看 输入 文本 [1^2] 对 应 的 如 图 9-3 左 侧 所 示 的 语法 分 析 树 : 


正确 的 语法 销 误 的 语法 
[iA2] [] 


group Yroup 


天 | A、 


[ expr | [ expr | 


NS 


atom 和 人 2 atom 


图 9-3 某 语 法 分 析 树 


当 匹 配 规则 atom 中 的 词法 符号 1 时 ， 调 用 栈 是 [group，expr，atom] (这 
是 因为 group 调 用 了 expr， 后 者 又 调用 了 atom) 。 通 过 查看 调用 栈 ， 我 
们 就 能 清楚 地 知道 语法 分 析 器 抵达 此 处 时 ， 紧 跟 在 每 条 被 其 调用 的 规 
则 后 面 的 词法 符号 的 集合 。 后 续 符 号 集合 只 考虑 那些 在 当前 规则 中 出 
现 的 词法 符号 ， 因此， 在 运行 时 ， 我 们 可 以 只 把 当前 调用 栈 对 应 的 后 
续 符号 集合 组 合 在 一 起 。 换 句 话 说 ， 我 们 无 法 同时 途径 group 的 两 个 备 
分 支 来 到 规则 expr 处 。 


Ek 


语 法 F 中 的 注释 里 给 出 了 一 些 后 续 符 号 集合 ， 将 它们 组 合 在 一 起 ， 我 们 
得 到 了 上 述 输入 的 重新 同步 集合 { 人 ，?]}。 为 了 证 明 该 集合 是 符合 预期 
的 ， 让 我 们 看 看 当 语法 分 析 需 遇 到 错误 输入 [时 会 发 生 些 什么 。 此 时 ， 
我 们 会 得 到 图 9-3 中 厂 侧 的 语法 分 析 树 。 在 atom 中 ， 语 法 分 析 事 发 现 当 
前 词法 符号 ] 不 符合 atom 的 任意 两 个 备 选 分 文 之 一 。 为 了 完成 重新 同 
步 ， 语 法 分 析 器 将 持续 消费 词法 符号 ， 直 到 它 发 现 重新 同步 集合 中 的 
词法 符号 为 止 。 在 本 例 中 ， 当 前 的 词法 符号 ] 正 好 是 重新 同步 集合 的 成 
员 之 一 ， 因 此 语法 分 析 天 实际 上 没有 消费 任何 词法 符号 殉 完 成 了 在 
atom 中 的 重新 同步 。 


在 完成 atom 规 则 中 的 恢复 过 程 后 ， 语 法 分 析 器 返回 expr 规 则 ， 但 是 它 立 
即 发 现 缺 少 ^ 词 法 符 和 号。 上述 恢复 过 程 将 会 重复 ， 语 法 分 析 胡 持续 消费 
词法 符号 ， 直 到 发 现 expr 规 则 的 重新 同步 集合 中 的 元 素 为 止 。expr 规 则 
的 重新 同步 集合 ， 也 束 是 group 规 则 的 第 一 个 备 选 分 文中 引用 的 expr 的 


后 续 符 号 集 合 ， 即 {了 }。 表 一次， 语法 分 析 右 没有 消费 任何 东西 束 退 出 
了 expr 规 则 ， 返 回 到 了 group 规 则 的 第 一 个 备 选 分 文中 。 现 在 语法 分 析 
妖 知 道 目 己 找 到 了 expr 规 则 引用 之 后 的 内 容 一 一 它 成 功 地 匹配 到 了 

时 oup 规 则 中 的 ]， 这 样 ， 语 法 分 析 亏 束 成 功 地 完成 了 重新 同步 。 


在 恢复 过 程 中 ，ANTLR 语 法 分 析 右 会 避免 输出 层 蕉 的 错误 消息 (从 
Grosch 中 借鉴 的 思想 ) 。 即 ， 对 于 每 个 语法 错误 ， 直 到 成 功 从 该 错误 
中 恢复 ， 语 法 分 析 器 才 输 出 一 条 错误 消息 。 这 件 事情 是 通过 一 个 简单 
的 布尔 类 型 的 变量 完成 的 ， 若 该 变量 被 置 为 tue， 当 遇 到 语法 错误 时 ， 
语法 分 析 器 就 能 避免 输出 进一步 的 错误 ， 直 到 语法 分 析 器 成 功 地 匹配 
到 一 个 词法 符号 ， 或 者 该 变量 被 置 为 false 为 止 (参见 


DefaultErrorStrategy 类 中 的 errorRecoveryMode 字 段 ) 。 


紧 随 其 后 的 符号 集合 (FOLLOW Set) vs. 后 续 符 号 集合 (Following 
Set) 


熟悉 编程 语言 理论 的 读者 可 能 会 有 疑问 ，atom 规 则 的 重新 闻 步 集合 
否 应 该 是 紧 跟 在 atom 之 后 的 词法 符号 (用 FOLLOW (atom) 表示 ) 
合 ， 即 所 有 能 在 某 种 上 下 文中 紧 跟 在 atom 之 后 的 词法 符号 集合 ? 非常 
不 幸 的 是 ， 事 情 没 有 那么 简单 ， 要 想 用 在 特定 上 下 文 而 非 全 部 上 下 文 
中 可 能 跟随 在 某 规 则 之 后 的 词法 符号 集合 构建 重新 邮 步 集合 ， 必 须 

过 动态 计算 。FOLLOW (expr) 是 {) '， 了 }， 它 包含 了 在 所 有 可 能 的 
上 下 文中 (group 的 第 一 条 和 第 二 个 备 选 分 支 ) 紧 跟着 expr 规 则 引用 的 


词法 符号 。 很 显然 ， 尺 管 如 此 ， 在 运行 时 ， 语 法 分 析 恬 同时 只 能 从 一 
个 位 置 调用 expr。 注 意 到 FOLLOW (atom) 是 入， 如 果 语 法 分 析 器 使 用 
这 个 词法 符号 而 非 重新 同步 集合 { 信 ， 了 } 来 进行 重新 同步 ， 它 可 能 会 持 
续 消费 词法 符号 ， 直 到 文件 的 末尾 ， 因 为 输入 内 容 中 并 没有 ^。 


在 许多 情况 下 ，ANTLR 人 能 够 更 加 党 能 地 完成 恢复 ， 而 不 仅仅 是 本 市 中 
提 到 的 “寻找 重新 同步 集合 中 的 符号 ”和 “从 当前 规则 返回 *。 它 会 尽力 壬 
斌 “修复” 输入 文本 并 继续 相同 规则 。 在 下 面 几 个 小 证 中， 我们 将 会 看 
到 语法 分 析 需 且 如 何 从 错误 匹配 的 词法 符号 和 子规 则 的 错误 中 恢复 
的 。 


2. 从 不 匹配 的 词法 符号 中 恢复 


在 语法 分 析 的 过 程 中 ， 最 章 见 的 操作 之 一 束 是 “匹配 词法 符号 ”。 对 于 
语法 中 的 每 个 词法 符号 T， 语 法 分 析 器 都 会 调用 match (T) 。 如 果 当 前 
的 词法 符号 不 是 T，match () 方法 就 会 通知 错误 监听 器 ， 并 试图 重新 
同步 。 为 完成 同步 ， 它 有 三 种 选择 : 移 除 一 个 词法 符号 、 补 全 一 个 词 
法 得 号， 或 者 简单 地 抛 出 一 个 异 闸 以 局 用 基本 的 同步 -返回 机 制 。 


如 果 能 够 成 功 的 话 ， 移 除 当前 的 词法 符号 是 重新 同步 最 容易 的 方法 。 
让 我 们 回顾 一 下 之 前 Simple 语 法 定义 的 “简单 类 定义 语言 ”里 的 classDef 
规则 。 


errors/Simple.g4 

classDef 
'class' ID '{' member+ '}' // a class has one or more members 
{System.out.println("class "+$ID.text),;} 


考虑 输入 文本 class 9 T{int i，}， 语 法 分 析 器 会 删除 9， 然 后 继续 进行 同 
一 条 规则 的 语法 分 析 过 程 一 一 匹配 类 的 定义 体 。 图 9-4 展 示 了 语法 分 析 
器 在 分 析 完 class 时 的 状态 。 


LA (1) 和 LA (2) 标示 出 了 第 一 个 和 第 二 个 (在 当前 词法 符号 之 后 
的 ) 前 瞻 词 法 符号 。match (ID) 期 望 LA (1) 是 一 个 ID， 但 是 它 不 
是 。 不 过 ， 下 一 个 词法 符号 LA (2) 是 一 个 ID。 此 时 ， 我 们 只 需 移 除 
当前 的 词法 符号 (将 它 当 作 干 扰 项 ) ， 然 后 按照 预期 匹配 下 一 个 ID 并 
退出 match () 方法 ， 即 可 完成 恢复 过 程 。 


如 果 语 法 分 析 器 无 法 通过 移 除 一 个 词法 符号 的 方式 重新 同步 ， 它 会 转 
而 莹 试 补 全 一 个 词法 符号 。 假 设 我 们 乐 记 输入 ID， 那 么 classDef 规 则 看 
到 的 输入 束 是 class{inti;}。 在 匹配 完 class 后 ， 输 出 的 状态 如 图 9-5 所 


修 ° 


LA(1) LA(2) 


图 9-4 ”语法 分 析 闫 分 析 完 class 时 的 状态 


ET 


LA(1) 


图 9-5“” 死 配 完 class 后 的 输出 状态 


语法 分 析 器 调用 了 match (ID) ， 期 望 发 现 一 个 标识 符 ， 但 是 实际 上 发 
现 的 却 是 {。 在 这 种 情况 下 ， 语 法 分 析 帮 知道 {是 自己 所 期 望 的 那个 词 
法 符号 的 下 一 个 ， 因 为 在 classDef 规 则 中 它 位 于 ID 之 后 。 此 时 match 

() 方法 可 以 假定 标识 符 已 经 被 发 现 并 返回 ， 这 样 ， 下 一 个 match 

0{) 的 调用 就 会 成 功 。 


在 忽略 内 磐 动 作 (例如 打印 出 类 名 的 语句 ) 的 前 提 下 ， 这 种 方案 表现 
得 相当 出 色 。 但 是 ， 如 果 词 法 符号 是 null， 通 过 $ID.text 引 用 了 缺失 词法 
符号 的 打印 语句 就 会 引起 一 个 异常 。 因 此 ， 错 误 处 理 句 会 创建 一 个 词 
法 符号 ， 而 非 向 单 的 假定 该 词法 符号 存在 ， 详 情 参 见 
DefaultErrorStrategy 中 的 getMissingSymbol () 方法 。 新 创建 的 词法 符 
号 具有 语法 分 析 侨 所 期 望 的 类 型 ， 以 及 和 当前 词法 符号 LA (1) 相同 的 


行列 位 置信 息 。 这 个 新 创建 的 词法 符号 阻止 了 监听 器 和 访问 器 中 引用 
缺失 词法 符号 时 引发 的 异常 。 


分 析 语 法 分 析 过 程 最 容易 的 方法 是 查看 语法 分 析 树 ， 它 展示 了 语法 分 
析 器 识别 所 有 词法 得 号 的 细 广 。 一 旦 过 到 错误 ， 语 法 分 析 树 就 会 用 红 
色 高 亮 标 注 那 些 词法 分 析 器 在 重新 同步 过 程 中 移 除 或 者 补 全 的 词法 符 
号 。 对 于 输入 文本 class{int i;，} 和 Simple 语 法 ， 我 们 得 到 如 图 9-6 所 示 的 
语法 分 析 树 。 


Prog 


classDef 


class <missingID> { member } 


ZN 


INt 1 ; 
图 9-6 输入 文本 class{inti; } 和 Simple 语 法 后 的 语法 分 析 树 


同时 ， 语 法 分 析 器 执行 了 内 内 动作 ， 成 功 地 完成 了 打印 而 没有 抛 出 腊 
常 ， 这 是 由 于 错误 恢复 机 制 为 iD 创建 了 一 个 有 效 的 Token 对 象 。 


> $ grun Simple prog -gui 
> class { int i; } 
= Eo 
《Line 1:6 missing ID at ‘'{!' 
Var 1 
class <missing ID> 


显然 ， 对 我 们 的 目的 而 言 ， 一 个 <missing ID> 标 识 符 没 有 任何 意义 ， 不 
过 ， 至 少 错误 恢复 机 制 不 会 引起 一 堆 空 指针 异常 了 。 


现在 ， 我 们 已 经 知道 了 ANTLR 针 对 简单 的 词法 符号 实施 的 规则 内 恢复 
机 制 ， 接 下 来 ， 让 我 们 进一步 探索 它 在 识别 子规 则 之 前 以 及 子规 则 识 
别 过 程 中 的 错误 恢复 机 制 。 


3. 从 子规 则 的 错误 中 恢复 


许多 年 前 ，Sun 公 司 的 JavaFX 小 组 向 我 反馈 ， 他 们 使 用 的 ANTLR 目 动 
生成 的 语法 分 析 器 在 特定 情况 下 无 法 很 好 地 从 错误 中 恢复 。 实 际 情 况 
是 ， 语 法 分 析 器 在 遇 到 第 一 个 错误 时 就 退出 了 类 似 member+ 的 子规 则 循 
环 ， 从 而 强制 将 同步 -返回 机 制作 用 于 外 围 规则 。 例 如 , “var width 
Number; ” (width 后 面 缺 少 冒 号 ) 这 样 一 个 有 关 成 员 声 明 的 小 错误 就 


会 令 语法 分 析 器 忽略 后 续 的 全 部 成 员 。 


Jim Idle 是 一 个 ANTLR 邮 件 组 内 的 页 献 者 和 顾问 ， 他 提出 了 一 种 我 称 
为 ~Jim Idle 的 魔法 同步 ?的 错误 恢复 机 制 。 他 的 解决 方案 是 : 在 语法 中 
手工 插入 一 条 空 规则 的 引用 ， 该 规则 包含 特定 的 、 能 够 在 必要 时 触发 


普 误 恢 复 的 动作 。 现 在 ，ANTLR 4 会 在 开始 处 和 循环 条 件 判定 处 目 动 
插入 同步 检查 ， 以 避免 激进 的 恢复 机 制 。 该 方案 详情 如 下 : 


子规 则 起 始 位 置 ”在 任意 子规 则 的 起 始 位 置 ， 语 法 分 析 器 会 尝试 进行 
单词 法 符号 移 除 。 不 过 ， 和 词法 符号 匹配 不 同 的 是 ， 语 法 分 析 亏 不 会 
演 试 进行 单词 法 符号 补 全 。 创 建 一 个 词法 符号 对 ANTLR 来 说 是 很 困难 
的 ， 因 为 它 必须 猜测 多 个 备 选 分 文中 的 哪 一 个 会 最 终 胜 出 。 


子规 则 的 循环 条 件 判定 位 置 “如 果子 规则 是 一 个 循环 结构 ， 即 (...) * 
或 〈.…) +， 在 遇 到 错误 时 ， 语 法 分 析 器 会 尝试 进行 积极 的 恢复 ， 使 得 
自己 留 在 循环 内 部 。 在 成 功 地 匹配 到 循环 的 某 个 备 选 分 文 之 后 ， 语 法 
分 析 希 会 持续 消费 词法 符号 ， 直 到 发 现 满 足下 列 条 件 之 一 的 词法 符号 
为 止 : 


(a) 循环 的 另 一 次 迭代 


(b) 紧 跟 在 循环 之 后 的 内 容 


(c) 当前 规则 的 重新 同步 集合 中 的 元 素 


让 我 们 移 看 看 在 子规 则 前 的 单词 法 符号 移 除 。 考 虑 Simple 语 法 的 
classDef 规 则 中 的 member+ 循 环 结构 。 如 采 我 们 手 误 多 输入 了 1{， 
member+ 子 规则 会 在 进入 member 之 前 移 除 掉 多 余 的 那个 词法 符号 ， 详 
见 如 图 9-7 所 示 的 语法 分 析 树 。 


pIoY 


classDerf 


class T { { member | 


AN 


INt | : 
图 9-7 移 除 多 余 词法 符号 的 语法 分 析 树 


下 面 的 命令 行 交 互 过 程 显示 ，ANTLR 成 功 地 进行 了 错误 恢复 ， 因 为 它 
正确 地 识别 出 了 变量 i: 


过 $ grun Simple prog 

> class T {{ int i; } 

=》 Eo 

《 line 1:9 extraneous input '{' expecting 'int' 
var 1 
class 下 


接 下 来 ， 让 我 们 试 着 输入 一 些 真 正 洒 乱 无 章 的 文本 ， 看 看 member+ 循 环 
能 否 从 错误 中 恢复 ， 继 续 寻 找 类 成 员 


今 $grun Simple prog 

> class T {{ 

人 int x; 

念 yi 

人 int 2z; 

> } 

=》 Eo 

《Line 1:9 extraneous input '{' expecting 'int' 
var x 
line 3:2 extraneous input 'y' expecting {'int', '}'} 
Var Zz 
class T 


从 中 可 知 ， 语 法 分 析 器 进行 了 重新 同步 ， 留 在 了 循环 内 部 ， 因 为 它 识 
别 出 了 变量 z。 语 法 分 析 胡 丢弃 了 y; ; ; ， 然 后 它 发 现 了 男 外 一 个 
member 的 开始 ( 即 上 面 的 条 件 c) ， 于 是 它 回 到 了 member 循 环 。 如 果 
输入 文本 不 包含 “int z; ”， 语 法 分 析 器 就 会 丢弃 到 } (上 面 的 条 件 b) 为 
止 ， 然 后 退出 循环 。 语 法 分 析 树 高 亮 标 记 了 被 丢弃 的 词法 符号 ， 并 显 
示 出 语法 分 析 器 仍然 成 功 地 将 “int z; ”解释 成 了 一 个 有 效 的 类 成 员 ， 如 
图 9-8 所 示 。 


Prog 


classDef 


class T { { member y ; ; ; Member |} 


AN LAN 


Int x : Int 二 
图 9-8 被 丢弃 的 词法 符号 被 高 亮 标 记 的 语法 分 析 树 


如 果 用 户 输入 了 一 个 非法 的 member， 同 时 遗漏 了 类 定义 最 后 的 }， 我 们 
不 希望 语法 分 析 器 一 直 扫描 到 它 发 现 } 为 止 。 如 果 这 样 的 话 ， 语 法 分 析 
器 的 重新 同步 过 程 可 能 会 丢弃 后 面 的 整整 一 个 类 定义 ， 来 寻找 缺失 
的 }。 实 际 上 ， 如 采 语 法 分 析 瑚 发现 了 一 个 满足 条 件 c 的 词法 符号 ， 它 
号 会 停止 丢弃 过 程 ， 如 下 所 示 : 


> $ grun Simple prog 
class TH 
这 int x; 
>》 
class U { int y; } 
= Eor 
《var x 
Line 3:2 extraneous input ';' expecting {'int', '}'} 
class 下 
var y 
class U 


从 图 9-9 所 示 的 语法 分 析 树 中 ， 我 们 可 以 看 出 ， 语 法 分 析 屁 在 它 发 现 关 
键 字 class 的 时 候 束 停止 了 重新 同步 过 程 。 


prog 
classDef classDef 
class T { member ; <missing }> class U { member } 


int x ; Int y ; 


图 9-9 停止 了 重新 同步 过 程 的 语法 分 析 树 


除了 词法 符号 匹配 和 子规 则 匹配 中 的 失败 ， 语 法 分 析 絮 还 可 能 在 匹配 
语义 判定 的 时 候 失 败 。 


4. 捕 获 失 败 的 语义 判定 


此 时 此 刻 ， 我 们 对 语义 判定 的 学 习 仅 仅 是 浅 洽 辑 止 ， 不 过 ， 由 于 本 章 
的 主题 是 错误 处 理 机制 ， 在 这 里 讨论 语义 判定 失败 时 发 生 的 事情 是 非 
常 合适 的 。 我 们 将 在 第 11 章 中 深入 研究 语义 判定 。 目 前 ， 让 我 们 暂时 
将 语义 判定 看 作 断 谨 。 它 们 指定 了 一 些 必须 在 运行 时 为 真 的 条 件 ， 以 
使 得 语法 分 析 亏 能 够 通过 这 些 条 件 的 验证 。 如 采 一 个 判定 结果 为 假 ， 


语法 分 析 右 会 抛 出 一 个 FailedPredicateException 异 常 ， 该 异常 会 被 当前 


规则 的 catch 语 句 捕获 。 语 法 分 析 右 随即 报告 一 个 错误 ， 并 运行 通用 的 
同步 -返回 恢复 机 制 。 


下 面 让 我 们 看 一 个 使 用 语法 判定 来 限制 器 量 中 整数 数量 的 例子 ， 它 与 
4.4 广 “使 用 语义 判定 改变 语法 分 析 过 程 ”* 部 分 中 的 语法 非常 相似 。ints 规 
则 匹配 最 多 max 个 整数 。 


errors/Vec.g4 
vec4d: "J ints[l4] “7 
ints[int max] 
locals [int i=1] 
INT ( ',' {$i++;} {$i<=$max}? INT )* 


下 列 测试 给 出 的 整数 过 多 ， 于 十 我 们 看 到 了 一 个 错误 请 轧 ， 以 及 销 误 
恢复 的 过 程 ， 在 这 个 过 程 中 ， 多 余 的 逗号 和 整数 被 于 并 了 : 


过 $ antLr4 Vec.g4 
> $ javac Veck, java 
过 $ grun Vec vec4 
[1,2,3,4,5,6] 

=》 Eo 


《 line 1:9 rule ints failed predicate: {$i<=$max}? 


如 图 9-10 所 示 的 语法 分 析 树 显示 ， 语 法 分 析 絮 在 第 五 个 整数 处 检测 到 了 


该 错误 。 


图 9-10 ”在 第 五 个 整数 处 检测 到 错误 的 语法 分 析 树 


作为 语法 设计 者 ， 其 中 的 {$i<=$max} 错 误 消息 对 我 们 很 有 帮助 ， 但 是 
显然 用 户 很 难 读 收 它 。 我 们 可 以 修改 这 条 请 轧 ， 通 过 对 语义 判定 使 用 
fail 选 项 ， 让 它 从 一 堆 代 码 变 成 一 些 可 读 的 文字 。 例 如 ， 下 面 古 ints 的 修 
改版 ， 通 过 一 个 动作 来 动态 生成 可 读 的 字符 串 ; 


errors/VecMsg.g4 
ints[int max] 
locals [int i=1] 
INT ( ',' {$i++;} {$i<=$max}?<fail={"exceeded max "+$max}> INT )* 


现在 ， 在 相同 的 输入 下 ， 我 们 获得 了 更 好 的 销 误 消 轧 。 


人 今 $ antlr4 VecMsg.g4 

> $ javac VecMsg*.java 

> $ grun VecMsg vec4 

> [1,2,3,4,5,6] 

=》 Eo 

《Line 1:9 rule ints exceeded max 4 


fail 选 项 接受 两 种 参数 ， 双 3 引号 包围 的 字符 串 常量 或 者 一 个 可 以 得 到 字 
符 串 的 动作 。 如 果 你 希望 在 判定 失败 时 执行 一 个 函数 ， 使 用 动作 是 极 
其 方便 的 ， 只 需 在 动作 中 调用 该 函数 即 可 ， 例 如 {...}? <fail= 
{failedMaxTest () }>。 


关于 使 用 语义 判定 来 验证 输入 有 效 性 这 件 事情 ， 还 有 一 些 需 要 注意 的 
地 方 。 在 上 面 的 癌 量 例子 中 ， 判 定 的 强制 性 针对 的 是 句法 规则 ， 所 以 
抛 出 异常 并 竹 试 恢复 古 没 问题 的 。 但 是 ， 如 琳 我 们 输入 的 结构 在 语法 
上 是 有 效 的 ， 但 是 在 语义 上 古 无 效 的 ， 这 时 ， 语 义 判 定 束 不 适用 了 。 


假设 存在 一 种 语言 ， 我 们 可 以 给 一 个 变量 赋予 任何 除 零 之 外 的 值 。 这 
意味 着 “assignment x=0; “在 语法 上 是 有 效 的 ， 但 是 在 语义 上 是 无 效 
的 。 显 然 ， 这 种 情况 下 ， 我 们 需要 向 用 户 输出 一 个 错误 ， 但 是 不 应 该 
触发 错误 处 理 机 制 。“x=0; ”在 句法 上 是 完全 合法 的 。 在 某 种 意义 上 ， 
语法 分 析 如 将 会 目 动 地 从 错误 中 “恢复 ”。 下 列 人 简单 语法 展示 了 这 个 问 
题 的 处 理 方式 : 


errors/Pred.g4 
assign 
: ID '=' v=INT {$v.int>0}? 7 
{System.out.println("assign "+$ID.text+" to ");} 


如 琳 assign 规 则 中 的 判定 过 程 抛 出 了 一 个 异 肖 ， 同 步 - 返 回 机 制 表 现 出 的 
行为 束 会 古 丢 弃 判定 后 的 “; ”。 这 种 行为 可 能 能 够 正常 工作 ， 但 是 我 
们 面临 的 风险 是 不 完美 的 重新 则 步 。 更 好 的 解决 方案 是 手工 输出 一 个 


首 误 ， 然 后 令 语 法 分 析 融 按照 正确 的 语法 继续 进行 匹配 。 所 以 ， 相 比 
语义 判定 ， 我 们 应 该 使 用 一 个 市 条 件 语句 的 动作 。 


{if ($v.int==0) notifyListeners("values must be > 0");} 


现在 ， 我 们 已 经 看 到 了 所 有 会 触发 错误 恢复 机 制 的 场景 ， 需 要 指出 的 
和 是， 这 种 机 制 存 在 一 个 缺点 。 考虑 到 有 时 语法 分 析 吉 在 一 次 错误 恢复 
的 笑 试 中 不 会 消费 任何 词法 符号 ， 这 可 能 市 来 一 个 后 末 : 整个 恢复 过 
程 进入 一 个 无 限 循环 。 如 采 语 法 分 析 瑚 在 恢复 过 程 中 没有 消费 任何 词 
法 符号 ， 并 且 回 到 了 相同 的 位 置 ， 那 么 我 们 就 会 面临 重新 开始 不 消费 
词法 符号 的 恢复 过 程 的 寄 境 。 在 下 一 方 中 ， 我 们 将 会 看 到 ANTLR 是 如 
何 避 免 这 个 缺陷 的 。 


5. 销 误 恢 复 机 制 的 防护 措施 


ANTLR 的 语法 分 析 铸 具有 内 置 的 防护 措施 ， 以 保证 错误 恢复 过 程 正 利 
结束 。 如 末 我 们 在 相同 的 语法 分 析 位 置 ， 过 到 了 相同 的 输入 情况 ， 语 
法 分 析 器 会 在 尝试 进行 恢复 之 前 强制 消费 一 个 词法 符号 。 回 到 本 章 开 
头 的 简单 Simple 语 法 ， 让 我 们 看 一 个 能 够 触发 防护 措施 的 例子 。 如 来 我 
们 在 字段 定义 中 加 入 一 个 多 余 的 int， 语 法 分 析 器 就 会 检测 到 错误 ， 从 
而 壬 试 进行 恢复 。 从 下 面 的 测试 中 我 们 可 以 看 到 ， 在 正确 的 重新 同步 


前 ， 语 法 分 析 器 会 多 次 调用 recover () 并 尝试 重新 开始 语法 分 析 。 


今 $grun SimpLe prog 

class TH 

> Int int x; 

> } 

今 Eo 

《Line 2:6 no viable alternative at input 'intint' 
Var X 


CLass T 


如 图 9-11 中 的 右 侧 语法 分 析 树 所 示 ，classDef 规 则 调用 了 三 次 member 。 


其 中 ， 第 一 个 member 没 有 匹配 到 任何 内 容 ， 第 二 个 member 匹 配 到 了 多 
余 的 int。 第 三 次 匹配 member 的 党 斌 正确 地 匹配 到 了 “int x; ”序列 。 


下 面 让 我 们 详细 分 析 这 个 过 程 。 当 语法 分 析 器 检测 到 第 一 个 错误 时 ， 
它 正 位 于 member 规 则 中 。 


errors/Simple.g4 
member 


ant TD 


{System.out.println("var "+$ID.text);} 
| 'int' f=ID '(' ID ')' '{' stat '}' // 方法 定义 
{System.out.println("method: "+$f.text);} 


正确 的 语法 错误 的 语法 


classT{inti;} classT {int inti;} 
prog prog 
classDef classDef 
Wp 9 De 本 > Sess 
class T { member } class TT { member member member 3 


int i ; int int i ; 


图 9-11 ”正确 和 错误 的 语法 对 应 的 语法 分 析 树 
输入 int int 不 适用 member 的 任何 一 个 备 选 分 支 ， 因 此 语法 分 析 絮 执行 了 
同步 -返回 错误 恢复 策略 。 它 输出 了 第 一 条 错误 消息 ， 然 后 开始 消费 词 
法 符号 ， 直 到 发 现 当前 调用 栈 [prog，classDef，memben] 对 应 的 重新 同 
全 
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为 语法 中 classDef+ 和 member+ 循 环 的 存在 ， 计 算 重 新 同步 集合 的 过 程 
稍 显 复杂 。 在 member 的 调用 之 后 ， 语 法 分 析 器 可 能 回 到 循环 开头 ， 再 
次 匹配 一 个 member， 或 者 退出 当前 循环 ， 匹 配 类 定义 尾部 的 }。 在 
classDef 的 调用 之 后 ， 语 法 分 析 赂 可 能 回 到 循环 开头 匹配 另外 一 个 类 定 
义 ， 或 者 简单 地 退出 prog 规 则 。 因 此 ， 调 用 栈 [prog，classDef， 
member] 对 应 的 重新 同步 集合 惑 是 {int，' 小 ，'"class'} 。 


此 时 ， 语 法 分 析 器 发 现 ， 不 需要 消费 词法 符号 就 可 以 完成 恢复 ， 因 为 
当前 的 输入 词法 符号 int 位 于 重新 同步 集合 中 。 因 此 ， 它 返回 到 了 调用 


者 处 : classDef 规 则 的 member+ 循 环 。 该 循环 接着 党 试 匹 配 另 一 个 类 成 
员 。 不 滁 的 是 ， 由 于 它 没 有 消费 任何 词法 符号 ， 语 法 分 析 器 随即 在 返 
回 member 时 再 次 检测 到 了 错误 〈 受 errorRecovery 标 志 位 影响 ， 它 隐藏 
了 重复 的 错误 消息 ) 。 


在 第 二 次 错误 的 恢复 中 ， 语 法 分 析 紫 局 用 了 防护 措施 ， 因 为 它 在 相同 
的 语法 分 析 位 置 遇 到 了 相同 的 输入 情况 。 在 委 试 重新 同步 之 前 ， 防 护 
措施 强制 消费 了 一 个 词法 符号 。 由 于 int 位 于 重新 同步 集合 中 ， 它 没有 
继续 消费 第 二 个 词法 符号 。 圣 运 的 是 ， 现 在 的 情况 正好 是 我 们 所 期 户 
的 ， 因 为 语法 分 析 亏 已 经 正确 地 完成 了 重新 同步 。 搂 下 来 的 三 个 词法 
符号 代表 一 个 有 效 的 成 员 定 义 : “int x; ”。 语 法 分 析 器 的 控制 流 再 次 从 
member 回 到 了 classDef 中 的 循环 。 此 时 ， 我 们 第 三 次 回 到 了 member， 
不 过 ， 这 一 次 语法 分 析 已 经 能 够 顺利 进行 了 。 


这 束 是 ANTLR 目 动 错 误 恢 复 机 制 的 全 部 细 方 。 下 面 让 我 们 学 习 一 种 手 
工 的 错误 恢复 机 制 ， 在 菏 些 情况 下 ， 它 能 够 更 好 地 完成 恢复 工作 。 


9.4 勘误 备 选 分 支 


一 些 语法 错误 十 分 常见 ， 以 至 于 对 它们 进行 特殊 处 理 是 值得 的 。 例 
如 ， 开 发 者 经 前 在 敬 套 的 函数 调用 后 写 错 括 号 的 数量 。 为 了 对 这 些 情 
况 进行 特殊 处 理 ， 我 们 只 需 增 加 一 些 备 选 分 文 ， 匹 配 这 些 常见 错误 即 


可 。 下 面 的 语法 识别 单 参数 的 函数 调用 ， 其 中 参数 中 可 能 包含 内 套 的 
括号 。fcall 规 则 具有 两 个 所 谓 的 勘误 备 选 分 支 (error alternative) 。 


errors/Call.g4 
stat: teall “ys: 


fcall 
ID '(' expr ')' 
| ID '(' expr ')' ')' {notifyErrorListeners("Too many parentheses");} 
| ID '(' expr {notifyErrorListeners("Missing closing ')'");} 
expr: '(' expr ')'!' 
| INT 


这 些 勘误 备 选 分 文 会 给 ANTLR 目 动 生 成 的 语法 分 析 需 这 来 少量 的 额外 
工作 ,但 是 不 会 对 它 形成 干扰 。 和 其 他 的 备 选 分 支 一 样 ， 只 要 输入 文 
本 与 之 相符 ， 语 法 分 析 峰 就 会 匹配 到 它们 。 在 下 面 的 例子 中 ， 我 们 首 
先 输入 了 一 个 合法 的 钞 数 调用 ， 随 后 输入 了 一 些 匹 配 勘 误 备 选 分 支 的 
文本 。 


动 


$antlr4 Call.g4 

过 $ javac Call*.java 

$ grun Call stat 

> (34); 

=》 Eo 

过 $ grun Call stat 

这 f((34); 

= Eor 

《 line 1:6 Missing closing ')' 
过 $ grun Call stat 

这 f((34))); 

=》 Eo 

《 line 1:8 Too many parentheses 


运 今 为 止 ， 我们 已 经 学 习 了 相当 多 错误 处 理 方面 的 知识 ， 它 们 包括 
ANTLR 语 法 分 析 器 能 够 产生 的 错误 消 忆 ， 以 及 语法 分 析 右 在 多 种 情况 
下 的 错误 恢复 机 制 。 我 们 也 看 到 了 目 定 义 错误 消息 和 将 错误 消 明 转发 
到 不 同 错 旋 监听 夷 的 方法 。 上 述 所 有 功能 都 由 一 个 对 象 封 闭 和 控制 ， 
该 对 象 指定 了 ANTLR 的 错误 处 理 策略 。 在 下 一 万 中 ， 我 们 将 会 详细 了 
解 该 沫 略 的 细 玉 ， 以 便 深 入 学 习 如 何 目 定 义 语法 分 析 亏 对 错误 的 处 理 
人 


9.5 修改 ANTLR 的 错误 处 理 策 略 


上 默认 的 错误 处 理 机 制 表 现 出 色 ， 不 过 我 们 还 是 会 遇 到 一 些 非典 型 的 、 
需要 修改 默认 机 制 的 场景 。 首 和 完 ， 我 们 希望 关闭 某 些 默 认 的 错误 处 理 
功能 ， 它 们 会 市 来 额外 的 运行 人 负担。 其 次 ， 我 们 可 能 希望 语法 分 析 器 
在 过 到 第 一 个 语法 销 误 时 束 退 出 。 这 种 情况 的 例子 是 ， 当 人 处理 类 似 bash 
的 命令 行 输入 时 ， 从 错误 中 恢复 是 毫 无 意义 的 。 我 们 不 能 一 意 孤 行 地 
执行 有 风险 的 命令 ， 因 此 语法 分 析 屁 可 以 一 过 到 问题 束 退 出 。 


欲 探 究 错 误 处 理 策 略 ， 不 妨 查看 一 下 ANTLRErrorStrategy 接 口 及 实现 类 
DefaultError-Strategy。 该 类 完成 了 全 部 的 默认 错误 处 理工 作 。 例 如 ， 下 
面 的 语句 是 每 个 ANTLR 目 动 生 成 的 规则 函数 中 的 catch 中 的 内 容 : 


_errHandler,.reportError(this, re); 
errHandler.recover(this, re); 


_errHandler 是 一 个 指 同 DefaultErrorStrategy 实 例 的 变量 。reportError () 
方法 和 recover () 方法 实现 了 错误 的 报告 和 同步 -返回 功能 。reportError 
() 方法 根据 抛 出 的 异常 类 型 ， 将 报告 错误 的 职责 委托 给 了 另外 三 个 

Ba > A 
对 于 之 前 提 到 的 第 一 种 非典 型 场景 减少 错误 处 理 机 制 给 语法 分 析 履 


带 来 的 运行 负担 。 请 看 下 面 的 代码 ， 它 是 ANTLR 根 据 Simple 语 法 中 的 
member+ 子 规则 目 动 生成 的 : 


_errHandler.sync(this); 

_la= input.LA(1); 

do { 
setState(22); member(); 
setState(26); 
_errHandler.sync(this); 
la= input.LA(1); 

} while ( la==6 ); 


在 某 些 程序 中 ， 可 以 假定 输入 在 句法 上 是 正确 的 ， 例 如 网 络 协 议 。 在 
这 种 情况 下 ， 我 们 最 好 避免 错误 检查 和 恢复 带 来 的 负荷 。 我 们 可 以 通 
过 以 下 方法 达到 这 个 目的 :继承 DefaultErrorStrategy 类 ， 并 使 用 一 个 空 
方法 覆盖 sync () 。Java 编 译 器 通常 会 在 后 续 的 优化 过 程 中 将 
_errHandler.sync (this) 调用 内 联 化 ， 并 执行 无 用 代码 消除 。 在 下 一 个 
例子 中 ， 我 们 将 会 看 到 如 何 令 语法 分 析 屁 采取 不 同 的 错误 处 理 策略 。 


男 外 一 种 非典 型 场景 是 令 语 法 分 析 右 在 第 一 个 语法 错误 处 退出 。 为 了 
达到 这 个 目的 ， 我 们 需要 莉 盖 三 个 关键 方法 ， 详 情 如 下 : 


errors/BailErrorStrategy.java 
import org.antlr.v4.runtime.*; 


public class BailErrorStrategy extends DefaultErrorStrategy { 
/** 不 从 异常 e 中 恢复 ， 而 是 用 一 个 通用 的 
* RuntimeException 包装 它 ， 这 样 它 
* ”就 不 会 被 规则 函数 中 的 catch 语句 捕获 。 
* ”异常 e 是 生成 的 RuntimeException 的 cause 成 员 。 
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@Override 


public void recover(Parser recognizer, RecognitionException e) { 
throw new RuntimeException(e); 


} 


/** 确保 不 会 试图 执行 行内 恢复 ， 如 果 语 法 分 析 器 
* 成功 地 进行 了 恢复 ， 它 就 不 会 抛 出 一 个 异常 
A 
@Override 
public Token recoverInLine(Parser recognizer) 
throws RecognitionException 
{ 
throw new RuntimeException(new InputMismatchException(recognizer)); 


} 


/** 确保 不 会 试图 从 子规 则 的 问题 中 恢复 。 */ 
@Override 
public void sync(Parser recognizer) { } 


ns 


出 于 测试 的 目的 ， 我 们 可 以 复 用 一 些 样 例 代码 。 除 了 创建 和 局 动 语法 
分 析 器 外 ， 我 们 还 需要 创建 一 个 新 的 BailErrorStrategy 实 例 ， 并 且 令 语 
法 分 析 絮 使 用 它 来 礁 代 点 认 的 错误 处 理 策 略 。 


errors/TestBail.java 
parser.setErrorHandler(new BailErrorStrategy()); 


随后 ， 我 们 应 当 令 它 在 第 一 个 词法 错误 处 报错 并 退出 。 要 达到 这 个 目 
的 ， 只 需 履 盖 Lexer 类 中 的 recover 方 法 即 可 。 


errors/TestBail.java 
public static class BailSimpleLexer extends SimpleLexer { 
public BailSimpleLexer(CharStream input) { super(input); } 
public void recover(LexerNoViableAltException e) { 
throw new RuntimeException(e); // 报错 退出 
} 


让 我 们 和 在 输入 文本 的 开头 插入 一 个 # 字 符 ， 以 构造 一 个 词法 错误 。 可 
见 ， 词 法 分 析 器 抛 出 了 一 个 异常 ， 接 管 了 主 程序 中 的 控制 流 。 


今 $ antLr4 Simple.g4 
今 $ javac Simple*.java TestBaliL. java 
今 $ java TestBail 
# class T{ int i; } 
= Eor 
《 line 1:1 token recognition error at: '#' 
Exception in thread "main" 
java.lang.RuntimeException: LexerNoViableAltException('#') 
at TestBails$BailSimpleLexer.recover(TestBail.java:9) 
at org.antlr.v4.runtime.Lexer.nextToken(Lexer.java:165) 
at org.antlr.v4.runtime.BufferedTokenStream.fetch(BufferedT...Stream.java:139) 


at org.antlr.v4.runtime.BufferedTokenStream.sync(BufferedT...Stream.java:133) 
at org.antlr.v4.runtime.CommonTokenStream.setup(CommonTokenStream.java:129) 
at org.antlr.v4.runtime.CommonTokenStream.LT(CommonTokenStream.java:111) 

at org.antlr.v4.runtime.Parser.enterRule(Parser.java:424) 

at SimpleParser.prog(SimpleParser.java:68) 

at TestBail.main(TestBail.java:23) 


同时 ， 语 法 分 析 器 在 第 一 个 语法 错误 《本 例 中 的 类 名 缺失 ) 处 就 退出 
了 了 。 


今 $ java TestBail 

= class { } 

=》 Eo 

《 Exception in thread "main" java.lang.RuntimeException: 
org.antlr.v4.runtime.InputMismatchException 


为 展示 ANTLRErrorStrategy 接 口 的 灵活 性 ， 让 我 们 通过 一 个 例子 来 圆满 
结束 本 章 的 学 习 : 修改 语法 分 析 器 的 错误 报告 策略 。 如 果 和 希望 修改 标 
准 的 错误 消息 “在 输入 X 处 没有 可 行 的 备 选 分 文 ”， 我 们 可 以 用 六 
reportNoViableAlternative () 方法 ， 将 错误 消息 改 成 其 他 内 容 。 


errors/MyErrorStrategy.java 
import org.antlr.v4,.runtime.*; 
public class MyErrorStrategy extends DefaultErrorStrategy { 
@Override 
public void reportNoViableAlternative(Parser parser, 
NoViableAltException e) 
throws RecognitionException 


// ANTLR 基于 语法 生成 的 语法 分 析 器 是 Parser 的 子 类 ， 

// Parser 类 继承 了 Recognizer 类 

// 方法 参数 parser 指向 检测 到 错误 的 语法 分 析 器 

String msg = "can't choose between alternatives"; // 自 定义 的 非 标 准 消息 
parser.notifyErrorListeners(e.getOffendingToken(), msg, e); 


不 过 ， 请 记 住 ， 如 果 我 们 需要 的 仅仅 是 改变 错误 消息 输出 的 位 置 ， 我 
们 可 以 像 9.2 贡 做 的 那样 ， 指 定 一 个 ANTLRErrorListener。 欲 了 解 如 何 


完全 覆盖 ANTLR 生 成 的 异常 捕获 代码 ， 请 阅读 15.3 节 “捕获 异常 "部 


sy 
> 
Q 


在 本 章 中 ， 我 们 介绍 了 ANTLR 中 重要 的 错误 报告 和 恢复 机 制 的 全 部 细 
节 。 利 用 ANTLRErrorListener 和 ANTLRErrorStategy 接 口 ， 我 们 能 够 非 
常 灵活 地 指定 错误 消息 的 输出 位 置 、 错 误 消 息 的 内 容 以 及 语法 分 析 器 
从 错误 中 恢复 的 方法 。 


在 下 一 章 中 ， 我 们 会 学 习 如 何在 语法 中 直接 嵌入 被 称 为 动作 (action) 
的 代码 片段 。 


第 10 章 属性 和 动作 


在 之 前 的 学 习 中 ， 我 们 的 程序 逻辑 代码 都 是 与 语法 分 析 树 遍历 器 分 离 
的 ， 这 意味 着 我 们 的 代码 总 是 在 语法 分 析 完 成 之 后 执行 。 在 接 下 来 的 
几 章 中 我 们 可 以 看 到 ， 一 些 语言 类 应 用 程序 需要 在 语法 分 析 的 过 程 中 
执行 目 身 的 逻辑 代码 。 为 了 达到 这 个 目的 ， 我 们 需要 一 种 手段 ， 将 代 
码 片段 一 一 称 为 动作 一 一 直接 注入 ANTLR 生 成 的 代码 中 。 本 章 的 第 一 
个 目标 是 ， 学 习 如 何在 语法 分 析 器 和 词法 分 析 右 中 和 骨 入 动作 ， 并 腊 清 
楚 我 们 可 以 在 这 些 动作 中 放置 哪些 内 容 。 


请 记 住 ， 通 常 我 们 应 当 避 人 免 将 语法 和 应 用 程序 的 逻辑 代码 纠缠 在 一 
起 。 不 包含 动作 的 语法 更 易 阅 读 ， 也 不 会 乡 定 到 特定 的 目标 语言 和 程 


序 上 。 尺 管 如 此 ， 内 岂 的 动作 仍然 是 有 用 的 ， 原 因 有 如 下 三 个 : 


-人 简便， 有 时， 使 用 少量 的 动作 ， 避 人 免 创建 一 个 监听 器 或 者 访问 器 会 使 
事情 变 得 更 加 人 简单。 


效率， 在 资源 紧张 的 程序 中 ， 我 们 可 能 不 想 把 宝贵 的 时 间 和 内 存 浪费 
在 建 并 语法 分 析 树 上 。 


市 判定 的 语法 分 析 过 程 : 在 某 些 罕见 情况 下 ， 我 们 必须 依赖 从 之 前 的 
输入 流 中 获取 的 数据 才能 正常 地 进行 语法 分 析 过 程 。 一 些 语 法 需要 建 
立 一 个 符号 表 ， 以 便 在 未 来 根据 情况 〈 例 如 一 个 标识 符 是 类 型 还 是 方 
法 ) 差异 化 地 识别 输入 的 文本 。 我 们 已 经 在 第 11 章 中 探究 过 这 样 的 例 
六 


动作 就 是 使 用 目标 语言 ( 即 ANTLR 生 成 的 代码 的 语言 编写 的 、 放 置 
在 {...} 中 的 任意 代码 块 。 我 们 可 以 在 动作 中 编写 任意 代码 ， 只 要 它们 是 
合法 的 目标 语言 语句 。 动 作 的 典型 用 法 十 操纵 词法 得 号 和 规则 引用 的 
属性 (attribute) 。 例 如 ， 我 们 可 以 读 取 一 个 词法 符号 对 应 的 文本 或 者 
整个 规则 匹配 的 文本 。 通 过 从 词法 符号 和 规则 引用 中 获取 的 数据 ， 我 
们 就 可 以 打印 结果 或 者 执行 任意 计算 。 规 则 允许 参数 和 返回 值 ， 因 此 
我 们 可 以 在 规则 之 间 传 递 数 据 。 


我 们 将 会 通过 三 个 例子 来 学 习 编 写 语法 中 的 动作 。 第 一 ， 我 们 会 编写 
一 个 计算 器 ， 它 的 功能 与 7.4 节 中 的 计算 絮 相 同 。 第 二 ， 我 们 会 为 CSV 


语法 ( 见 6.1 节 ) 增加 一 些 动作 ， 以 此 来 探索 规则 和 词法 符号 的 属性 。 
在 第 三 个 例子 中 ， 我 们 将 会 为 一 门 在 运行 期 才能 确定 关键 字 的 语言 纺 
写 一 个 语法 ， 以 此 来 学 习 词法 规则 中 的 动作 。 


征 动手 的 时 候 了 ， 下 面 让 我 们 从 一 个 基于 动作 的 计算 万 实现 开始 。 


10.1 使 用 带动 作 的 语法 编写 一 个 计算 器 


让 我 们 通过 回顾 4.2 厄 中 的 表达 式 语 法 来 学 习 编写 动作 。 在 该 三 中 ， 我 
们 利用 访问 紫 编 写 了 一 个 能 够 对 表达 式 求 值 的 计算 器 ， 如 下 所 示 : 


actions/t.expr 
x=1 

x 

Xx+2*3 


我 们 的 目标 古 在 不 使 用 访问 器 ， 甚 至 不 建立 语法 分 析 树 的 前 提 下 ， 重 
新 编写 一 个 功能 相同 的 计算 器 。 此 外 ， 我 们 还 会 利用 一 个 小 技巧 使 其 
具备 交互 功能 ， 这 意味 着 我 们 会 在 融 回 车 时 获得 结果 ， 而 非 在 输入 结 
束 后 。 相 比 之 下 ， 之 前 的 所 有 示例 部 是 先 读 取 完 整 的 输入 文本 ， 然 后 
处 理 生成 的 语法 分 析 树 。 


通过 本 世 ， 我 们 会 习 得 以 下 技能 : 将 生成 的 语法 分 析 器 放 入 包 中 、 定 
义 语 法 分 析 亏 的 字段 和 方法 、 在 备 选 分 文中 插入 动作 、 标 记 语 法 元 系 
以 便 在 动作 中 使 用 ， 以 及 定义 规则 的 返回 值 。 


1. 在 语法 规则 之 外 使 用 动作 


在 语法 规则 之 外 ， 我 们 希望 将 两 种 东西 注入 目 动 生成 的 语法 分 析 万 和 
词法 分 析 器 : package/import 语 句 以 及 类 似 字 段 和 方法 这 样 的 类 成 员 。 


下 面 是 一 份 理 想 化 的 代码 生成 模板 ， 它 展示 了 在 语法 分 析 亏 这 样 的 目 
动 生成 的 代码 中 ， 我 们 希望 注入 代码 片段 的 位 置 。 


<header> 
public class <grammarName>Parser extends Parser { 
<members> 


} 


我 们 可 以 在 语法 中 使 用 @header{.…} 来 指定 一 段 header 动 作 代 码 ， 使 用 
@members{..} 向 生成 的 代码 中 注入 字段 或 者 方法 。 在 一 个 联合 了 文法 
和 词法 的 语法 中 ， 这 些 具 名 的 动作 会 同时 应 用 于 语法 分 析 侣 和 词法 分 
析 侣 (ANTLR 选 项 -package 人 允许 我 们 直接 设 定 包 名 ， 而 无 需 使 用 header 
动作 ) 。 如 果 需 要 限制 一 段 动作 代码 只 出 现在 语法 分 析 器 或 者 词法 分 
析 器 中 ， 我 们 可 以 使 用 @parser: : name 或 者 @lexer: : name。 下 面 让 
我 们 看 看 我 们 的 计算 器 是 如 何 使 用 上 述 特性 的 。 和 之 前 相同 ， 计 算 器 
使 用 到 的 表达 式 语 法 以 一 个 语法 声明 开始 ， 不 过 ， 现 在 我 们 打算 将 所 
有 生成 的 代码 声明 于 一 个 特定 的 Java 包 中 。 此 外 ， 我 们 还 需要 导入 一 些 
标准 的 Java 工 具 类 。 


actions/tools/Expr.g4 
grammar Expr; 


@header { 
package tools; 


import java.util.*; 


} 


之 前 的 计算 器 的 EvalVistor 类 有 一 个 存储 键 值 对 的 memory 字 段 ， 它 用 于 

实现 变量 的 赋值 和 引用 。 在 本 次 实现 中 ， 我 们 会 将 这 个 字段 放 入 

members 功 能 里 。 为 避免 语法 显得 凌乱 ， 我 们 还 定义 了 一 个 eval () 方 
， 用 于 对 两 个 操作 数 执行 相关 操作 。 下 面 是 完整 的 members 动 作 : 


actions/tools/Expr.g4 
@parser: :members { 
/** "memory" 字段 用 于 存储 变量 / 变量 值 对 */ 
Map<String, Integer> memory = new HashMap<String, Integer>(); 


int eval(int left, int op, int right) { 
Switch ( op ) { 
case MUL : return left * right; 
case DIV : return left / right; 
case ADD : return left + right; 
case SUB : return left - right; 
} 


return 0; 


完成 上 述 定义 之 后 ， 让 我 们 看 看 如 何在 规则 内 的 动作 中 使 用 这 些 类 成 


2. 在 规则 中 能 入 动作 


在 本 万 中 ， 我 们 将 会 学 习 在 语法 中 藤 入 动作 ， 这 些 动作 可 以 生成 输 
出 、 更 新 数据 结构 ， 或 者 设置 规则 的 返回 值 。 我 们 还 会 看 到 ANTLR 是 


如 何 将 规则 的 参数 、 返 回 值 ， 以 及 规则 调用 的 其 他 属性 包 闭 成 一 个 
ParserRuleContext 子 类 的 实例 的 。 


(1) 基础 知识 


stat 规 则 用 于 识别 表达 式 、 变 量 赋值 语句 和 罕 行 。 因 为 我 们 在 发 现 空 行 
时 什么 都 不 做 ， 所 以 stat 规 则 只 需要 两 个 动作 。 


actions/tools/Expr.g4 

stat: e NEWLINE {System.out.println($e.v);} 
| ID '=' e NEWLINE {memory.put($ID.text, $e.v);} 
| NEWLINE 


动作 被 执行 的 时 机 是 它 前 面 的 语法 元 素 之 后 、 它 后 面 的 语法 元 素 之 

前 。 在 本 例 中 ， 动 作出 现在 备 选 分 支 的 末尾 ， 因 此 它们 会 在 语法 分 析 
器 匹配 到 整个 语句 之 后 被 执行 。 当 stat 发 现 一 个 后 面 跟着 NEWLINE 的 
表达 式 时 ， 它 应 当 打印 出 该 表达 式 的 值 ， 当 stat 发 现 一 个 变量 赋值 语句 
时 ， 它 就 应 当 将 该 键 值 对 存储 到 memory 字 段 中 。 


这 些 动作 代码 中 唯一 陌生 的 语法 钙 $e.v 和 $ID.text。 通 稼 ，$x.y 古 指 元 素 
x 的 y 属 性 ， 其 中 x 可 以 是 词法 符号 引用 或 者 规则 引用 。 在 这 里 ，S$e.v 指 
的 是 调用 规则 e 的 返回 值 ( 稍 后 我 们 会 看 到 为 什么 它 被 称 为 v) 。 
$ID.text 指 的 是 ID 词法 符号 匹配 到 的 文本 。 


如 膝 ANTLR 无 法 识别 y 属 性 ， 它 束 不 会 加 换 该 属性 。 在 本 例 中 ，text 是 
一 个 词法 符号 的 已 知 属性 ， 所 以 ANTLR 将 它 转换 为 了 getText () 。 我 


们 还 可 以 使 用 $ID.getText () 来 达到 相同 效果 。 有 关 规 则 和 词法 符号 的 
属性 的 完整 列表 ， 请 参阅 15.4m。 


回 到 规则 e， 让 我 们 来 看 看 内 藤 在 其 中 的 动作 。 我 们 的 初衷 征 通 过 直接 
器 语 法 中 插入 代码 片段 ， 即 动作 ， 来 模拟 EvalVisitor 的 功能 。 


actions/tools/Expr.g4 
e returns [int v] 


: a=e op=('*'|'/') b=e {$v = eval($a.v, $op.type, $b.v);} 
| a=e op=('+'|'-') b=e {$v = eval($a.v, $op.type, $b.v);} 
| INT {$v = $INT.int;} 
| ID 

{ 

String id = $ID.text; 

$v = memory.containsKey(id) ? memory.get(id) : 0; 

上 
| '('e')' {$v = $e.v;}- 


( 注 : 根据 原 书 勘误 表 ， 此 处 原文 有 误 ， 已 修正 。 一 一 译 者 注 ) 


这 个 例子 中 有 许多 引人入胜 的 细 广 。 我 们 发 现 的 第 一 个 细节 钙 它 指定 
了 一 个 整数 类 型 的 返回 值 v。 这 束 古 之 前 stat 的 动作 中 引用 $e.v 的 原因 。 
ANTLR 的 返回 值 和 Java 的 返回 值 的 差异 在 于 ， 我 们 需要 为 它们 命名 ， 
并 且 可 以 有 多 个 返回 值 。 


接 下 来 ， 我 们 看 到 了 规则 引用 e 和 运算 符 子 规则 上 的 标记 ， 如 op= 
xy 。 标 记 可 以 指 问 一 个 词法 符号 ， 也 可 以 指 癌 在 匹配 词法 符号 或 
规则 过 程 中 生成 的 ParserRuleContext 对 象 。 


在 详细 分 析 动 作 的 内 容 之 前 ， 有 必要 了 解 一 人 ANTLR 存 储 诸如 返回 值 
和 标记 这 样 的 信息 的 位 置 。 在 进行 源 代码 级 别 的 调试 时 (source-level 
debug) ， 拥 有 这 些 知 识 会 使 得 ANTLR 自 动 生成 的 代码 更 易 理解 。 


(2) 将 一 切 打包 成 一 个 规则 上 下 文 对 象 


在 2.4 节 中 ， 我 们 已 经 了 解 到 ，ANTLR 通 过 规则 上 下 文 对 象 (rule 
context object) 来 实现 语法 分 析 树 的 节点 。 每 次 规则 调用 都 会 新 建 并 返 
回 一 个 规则 上 下 文 对 象 ， 它 存储 了 相应 规则 在 输入 流 的 特定 位 置 上 进 
行 识 别 工作 的 所 有 重要 信息 。 例 如 ， 规 则 e 新 建 并 返回 EContext 对 象 。 


public final EContext e(...) throws RecognitionException {...} 


自然 地 ， 规 则 上 下 文 对 象 非常 适合 放置 与 特定 规则 相关 的 数据 实体 。 
EContext 的 第 一 部 分 如 下 所 示 : 


public static class EContext extends ParserRuLeContext { 


public int v; // 规则 e 的 返回 值 , 源 于 "returns [int v]" 
public EContext a; ”// (递归 的 ) 规则 引用 e 上 的 标记 a 

public Token op; // 类 似 ('*' |'/' ) 的 运算 符 子规 则 上 的 标记 
public EContext b;  // (递归 的 ) 规则 引用 e 上 的 标记 b 


public Token INT;  // 第 三 个 备 选 分 支 引 用 的 INT 
public Token ID; // 第 四 个 备 选 分 支 引 用 的 ID 
public EContext e; // e 的 调用 过 程 对 应 的 上 下 文 对 象 的 引用 


标记 总 是 会 成 为 规则 上 下 文 对 象 的 成 员 ， 但 是 ANTLR 并 不 总 是 为 类 似 
ID、INT 和 e 的 备 选 分 文 元 素 生 成 字段 。ANTLR 只 有 在 它们 被 语法 中 的 


动作 引用 时 才 为 它们 生成 字段 (例如 e 中 的 动作 ) 。ANTLR 会 尽 可 能 地 
减少 上 下 文 对 象 中 字段 的 数量 。 


现在 ,我们 的 计算 器 的 各 部 分 都 已 就 绪 ， 让 我 们 一 起 分 析 一 下 规则 e 的 
备 选 分 文中 动作 的 内 容 。 


(3) 计算 返回 值 


e 中 的 所 有 动作 都 通过 赋值 语句 “$v=…; ”来 设置 返回 值 。 该 语句 虽然 设 
置 了 返回 值 ， 但 是 并 不 会 导致 对 应 的 规则 函数 返回 (不 要 在 动作 中 使 
用 return 语 句 ， 它 会 使 语法 分 析 器 朋 溃 ; 。 下 面 是 开头 两 个 备 选 分 文 使 
用 的 动作 : 


$v = eval($a.v, $op.type, $b.v); 


这 上段 代码 计算 子 表 达 式 的 值 并 将 其 赋 给 了 e 的 返回 值 。eval () 方法 的 
参数 是 两 个 e 引 用 的 返回 值 $a.v 和 $b.v， 以 及 当前 备 选 分 支 匹 配 到 的 运 
符 类 型 $op.type。$op.type 必 然 是 某 个 算术 运算 符 的 词法 符号 类 型 。 

注意 我 们 可 以 重复 使 用 同一 个 标记 (只 要 它们 指向 相同 类 型 的 对 

象 ) 。 因 此 ， 第 二 个 备 选 分 支 重 复 使 用 了 标记 a、b 和 op。 


NS 


流 


第 三 个 备 选 分 支 的 动作 中 使 用 $INT.int 来 访问 INT 词 法 符号 匹配 到 的 文 
本 对 应 的 整数 。 它 仅仅 是 Integer.valueOf ($INT.text) 的 简写 。 这 些 内 


刚 的 动作 比 等 价 的 访问 器 方法 visitInt () 要 简单 得 多 (代价 是 使 程序 的 
逻辑 代码 和 语法 纠缠 在 了 一 起 ) 。 


tour/EvalVisitor.java 

@Override 

public Integer visitInt(LabeledExprParser.IntContext ctx) { 
return Integer.value0Of(ctx.INT().getText()); 

} 


第 四 个 备 选 分 支 识 别 一 个 变量 的 引用 ， 如 末 在 此 之 前 它 的 值 已 经 被 存 
储 过 ， 束 将 e 的 返回 值 设 置 为 该 变量 在 memory 中 的 值 。 这 上段 动作 代码 使 
用 了 Java 的 ? : 运算 伯 ， 不 过 我 们 也 能 轻易 地 将 它 改 写成 if-else 的 形 
式 。 我 们 可 以 在 动作 中 放 入 任何 东西 ， 只 要 它们 能 在 Java 方 法 中 正 前 工 
作 即 可 。 


最 后 一 个 备 选 分 文中 的 $v=$e.v; 动作 将 返回 值 设 为 括号 中 的 表达 式 的 
值 。 在 这 里 ， 我 们 仅仅 是 传递 了 一 个 返回 值 而 已 。 (3) 的 值 就 是 3。 


以 上 束 是 全 部 的 语法 和 动作 。 下 面 让 我 们 学 习 编 写 计算 絮 的 交互 部 


分 。 


(4) 编写 一 个 交互 式 的 计算 器 


在 探索 交互 工具 的 细 和 之前， 让 我 们 先 熟 悉 一 下 该 语法 和 Calc.java 的 构 
建 和 测试 过 程 。 由 于 在 header 动 作 中 加 入 了 语句 “package tools; ”， 我 
们 需要 将 生成 的 Java 代 码 放 入 一 个 名 为 tools 的 目录 〈 它 反映 了 Java 标 准 


下 的 包 名 和 目录 结构 之 间 的 关系 ) 。 这 意味 着 ， 我 们 需要 在 tools 目 录 
中 运行 ANTLR， 或 者 在 它 的 上 级 目录 中 指定 路 径 tools/Expr.g4 来 运行 。 


$ antLr4 -no-Listener tools/Expr.g4 # 在 tools 目录 下 生成 不 带 监听 器 的 语法 分 析 器 
$ javac -d . tools/*.java # 编译 且 将 生成 的 .class 文件 放 在 tools 下 


下 面 我 们 使 用 Calc 的 全 限定 类 名 来 试 一 下 。 


过 $ java tools.Calc 
>x=1 


你 会 注意 到 ， 当 你 敲 回 车 的 时 候 ， 计 算 器 立刻 给 出 了 结果 。 在 默认 情 
况 下 ，ANTLR 会 读 取 全 部 的 输入 (通常 是 读 入 一 个 巨大 的 缓冲 区 ) ， 

为 达到 上 述 目的 ， 我 们 必须 将 输入 文本 一 行 一 行 地 传递 给 它 ， 以 使 得 
这 个 过 程 变 成 交互 式 的 。 每 行 代表 一 个 完整 的 表达 式 (如 果 需 要 处 理 
可 以 分 为 多 行 的 表达 式 ， 参 见 12.2 全 “有趣 的 Python 换行 符 ? 部 分 | 。 下 
面 的 main () 方法 是 我 们 获得 第 一 个 表达 式 的 方式 : 


actions/tools/Calc.java 
BufferedReader br = new BufferedReader(new InputStreamReader(is)); 


String expr = br.readLine(); // 获取 第 一 个 表达 式 
int Line = 1; // 跟踪 输入 的 表达 式 的 行 号 


为 在 不 同 的 表达 式 之 间 共享 memory 字 段 的 值 ， 我 们 需要 用 同一 个 语法 
分 析 器 实例 处 理 所 有 的 输入 行 。 


actions/tools/Calc.java 
ExprParser parser = new ExprParser(null); // 共享 同一 个 语法 分 析 器 的 实例 
parser.setBuildParseTree(false); // 不 需要 建立 语法 分 析 树 


当 我 们 读 入 一 行 时 ， 我 们 需要 新 建 一 个 词法 符号 流 ， 将 其 传 给 共享 的 
语法 分 析 器 。 
actions/tools/Calc.java 


while ( expr!=null ) { // 当 多 于 一 个 表达 式 时 
// 为 每 行 (每 个 表达 式 ) 新 建 一 个 词法 分 析 器 和 词法 符号 流 


ANTLRInputStream input = new ANTLRInputStream(expr+"\n"); 
ExprLexer lexer = new ExprLexer(input); 

Lexer.setLine(Line) ; // 通知 词法 分 析 器 输入 的 位 置 
lexer.setCharPositionInLine(0); 

CommonTokenStream tokens = new CommonTokenStream( lexer); 
parser.setInputStream(tokens); // 用 新 的 词法 符号 流通 知 语法 分 析 器 


parser.stat(); // 开始 语法 分 析 过 程 
expr = br.readLine(); // 检查 下 一 行 是 否 存在 
Line++; 


现在 ， 我 们 已 经 党 握 了 编写 交互 式 工具 的 方法 ， 并 且 请 区 了 如 何 编写 
和 使 用 内 般 动 作 。 我 们 的 计算 禹 使 用 一 段 header 动 作 指定 了 包 名 ， 同 时 
使 用 members 动 作为 语法 分 析 天 定义 了 两 个 类 成 员 。 我 们 将 规则 内 的 动 
作用 作 处 理 词法 符号 和 规则 属性 的 男 数 ， 从 而 能 够 计算 和 返回 子 表达 
式 的 值 。 在 下 一 节 中 ， 我 们 会 看 到 更 多 的 属性 ， 了 解 更 多 放置 动作 的 
可 行 位 置 。 


10.2 访问 词法 符号 和 规则 的 属性 


让 我 们 以 6.1 市 中 的 CSV 语 法 为 基础 ， 学 习 一 些 与 动作 相关 的 符 性。 我 
们 会 编写 一 个 程序 ， 解 析 并 打印 CSV 文 件 中 的 数据 ， 它 会 为 每 行 生成 
一 个 从 列 名 到 字段 值 的 Map。 我 们 的 目的 是 学 习 更 多 有 关 规 则 动作 和 属 
性 的 知识 。 


首先， 让 我 们 看 看 如 何 使 用 locals 区 域 (section) 定义 局 部 变量 。 经 过 
定义 参数 和 返回 值 后 ，locals 区 域 中 的 声明 束 会 成 为 规则 上 下 文 对 象 的 
字段 。 由 于 我 们 在 每 次 规则 调用 时 都 会 获得 一 个 新 的 规则 上 下 文 ， 可 
以 预料 ， 我 们 同时 也 获得 了 locals 的 一 份 新 拷贝 。 下 面 这 个 版 本 的 fe 规 
则 帝 有 参数 ， 包 含 很 多 有 趣 的 细 玉 ， 不 过 ， 让 我 们 首 移 重点 关注 一 下 
locals 到 展 可 以 做 什么 。 


actions/CSV.g4 
/** 由 规则 "file : hdr row+ ;衍生 而 来 */ 
file 
locals [int i=0] 
: hdr ( rows+=row[$hdr.text.split(",")] {$i++;} )+ 
€ 
System.out.println($i+" rows"); 
for (RowContext r : $rows) { 
System.out.println("row token interval: "+r.getSourceInterval()); 
} 
} 


file 规 则 定义 了 一 个 局 部 变量 1， 并 且 使 用 动作 代码 $i++ 来 统计 当前 输入 
的 行 数 。 引 用 局 部 变量 时 请 不 要 未 了 $ 前 级 ， 否 则 编译 融会 报告 变量 未 
定义 的 错误 。ANTLR 将 $i 转换 成 _jocalctx.i， 在 他 e 规 则 对 应 的 规则 函数 
中 ， 实 际 上 古 不 存在 局 部 变量 的。 


接 下 来 ， 让 我 们 看 看 对 row 规 则 的 调用 。 规 则 调用 row[$hdrtext.split 
(",，") ] 显 示 ， 我 们 使 用 方 括号 而 非 圆 括 号 来 向 规则 传递 参数 〈 圆 括 
号 已 经 被 ANTLR 的 子规 则 语法 占用 了 ) 。 参 数 表达 式 $hdrtext.split 
(， 将 hdr 规 则 匹配 到 的 文本 切 分 为 一 组 row 规 则 所 需 的 字符 串 。 


让 我 们 分 别 理解 这 件 事情 。$hdr 是 对 唯一 的 hdr 规 则 调用 的 引用 ， 它 指 
问 本 次 调用 的 HdrContext 对 象 。 在 本 例 中 ， 我 们 无 需 对 hdr 规 则 引用 进 
行 标记 (如 h=hdr) 的 原因 是 $hdr 是 独一无二 的 。 因 此 ，$hdrtext 就 是 标 
题 行 匹配 到 的 文本 。 我 们 使 用 标准 的 Java 方 法 String.split () 将 逗号 分 
隅 的 标题 列 切 分 为 一 组 字符 串 。 我 们 稍 后 会 看 到 row 规 则 接收 一 个 字符 
串 数 组 作为 参数 。 


对 row 的 调用 也 引入 了 一 种 新 的 标记 ， 即 += 而 非 = 标 记 符 。 相 比 之 下 ，= 
用 于 跟踪 单个 值 ， 而 这 里 的 标记 rows 是 所 有 的 row 调 用 返回 的 
RowContext 对 象 的 List。 在 打印 出 rows 的 数量 后 ， 旬 e 规 则 中 最 后 的 动 
作 代码 通过 一 个 循环 志 历 了 所 有 的 RowContext 对 象 。 在 循环 的 每 次 迭 
代 中 ， 它 都 打印 出 row 规 则 调用 匹配 到 的 词法 符号 的 索引 值 范围 (使 用 


getSourceInterval () 方法 ) 。 


循环 使 用 了 r， 而 非 $r， 这 是 因为 r 是 一 段 Java 代 码 中 的 局 部 变量 。 
ANTLR 只 能 看 到 ]ocals 关 键 字 定义 的 局 部 变量 ， 而 无 法 看 到 用 户 编写 的 
任意 内 稚 动 作 中 的 局 部 变量 。 它 们 之 间 的 差别 在 于 ， 和 名 e 规 则 对 应 的 语 


法 分 析 树 斑点 只 会 定义 字段 i， 而 不 会 定义 字段 r。 


现在 转 到 hdr 规 则 ， 在 该 规则 中 ， 我 们 仅仅 打印 出 标题 行 的 内 容 。 我 们 
可 以 通过 $hdrtext 来 完成 这 项 工作 ， 它 融 是 row 规 则 引用 匹配 到 的 文 
本 。 男 外 ， 我 们 也 可 以 直接 用 $text 获得 当前 的 规则 匹配 到 的 文本 。 


actions/CSV.g4 
hdr : row[null] {System.out.println("header: '"+$text.trim()+"'");} ，; 


在 本 例 中 ， 它 同时 也 是 row 规 则 匹配 到 的 文本 ， 因 为 它们 二 者 包含 的 内 
容 是 相同 的 。 


现在 让 我 们 使 用 row 规 则 中 的 动作 ， 将 每 行 数据 转换 成 一 个 从 列 名 到 列 
值 的 Map。 上 自 完 ，row 接 收 一 组 列 名 作为 参数 ， 返 回 一 个 Map。 其 次 ， 

为 了 在 列 名 组 成 的 数组 中 移动 ， 我 们 需要 一 个 局 部 变量 col。 在 解析 该 
行 数据 之 前 ， 我 们 需要 初始 化 返回 的 Map， 男 外 ， 让 我 们 再 找 个 乐子 ， 
row 结 束 后 打印 出 Map 里 的 值 。 上 述 内 容 组 成 了 该 规则 的 头 部 。 


actions/CSV.g4 
/* 由 规则 "row : field (',' field)* 人 NAF7 An 5" 衍生 而 来 */ 
row[String[] columns] returns [Map<String,String> values] 
locals [int col=0] 
@init { 
$values = new HashMap<String,String>(); 
J 
@after { 
If ($values!=null && $values.size()>0) { 
System.out.println("values = "+$Vvalues); 


} 
} 


init 动 作 发 生 在 对 应 规则 匹配 过 程 开始 之 前 ， 无 论 密 有 和 多少 个 备 选 分 
文 。 同 样 ，after 动 作 发 生 在 对 应 规则 的 备 选 分 文 之 一 完成 匹配 之 后 。 在 


这 个 例子 中 ， 我 们 将 打印 语句 置 于 row 规 则 的 最 外 层 备 选 分 支 的 末尾 ， 
以 阐明 after 动 作 的 功能 。 


当 一 切 整 绪 后 ， 我 们 就 可 以 提取 数据 并 填充 该 Map 了 。 


actions/CSV.g4 
// 继续 上 文 的 row 规则 
field 
{ 
if ($columns!=null) { 
$values.put($columns[$col++] .trim(), $field.text.trim()); 
} 
} 
( ',' field 


{ 
if ($columns!=null) { 
$values.put($columns[$col++] .trim(), $field.text.trim()); 
} 
} 


)* he? ‘In 


这 上 段 动作 的 主要 部 分 通过 $values.put (...) 将 列 名 对 应 字段 的 值 存储 了 
结果 map 中 。 这 个 方法 的 第 一 个 参数 是 这 样 得 到 的 ， 获得 列 名 ， 将 索引 
值 增 一 ， 然 后 使 用 $columns[$col++].trim () 移 除 列 名 两 侧 的 空白 。 第 
二 个 参数 通过 $field.text.trim () 移 除 掉 最 近 一 次 匹配 到 的 字段 文本 两 

侧 的 空 日 (row 中 的 两 段 动 作 代 码 是 完全 相同 的 ， 所 以 最 好 将 它们 重 构 
为 members 动 作 中 的 一 个 方法 ) 


CSV.g4 中 的 其 他 内 容 我 们 都 已 经 很 熟悉 了 ， 所 以 这 里 不 再 资 述 ， 直 接 
进行 它 的 构建 和 测试 过 程 。 因 为 grun 的 存在 ， 我 们 无 须 为 其 编写 特殊 的 
测试 ， 可 以 只 生成 语法 分 析 右 并 编 详 之 。 


$ antLr4 -no-Listener CSV.g4  # 这 次 我 们 仍然 不 使 用 监听 器 
$ javac CSV*.java 


下 面 是 我 们 使 用 的 CSV 数 据 ; 
actions/users.csv 

User, Name, Dept 

parrt, Terence, 101 

tombu, Tom, 020 

bke, Kevin, 008 
下 面 是 输出 结果 : 


$ grun CSV file users.csv 

header: 'User, Name, Dept'' 

values = {Name=Terence, User=parrt, Dept=101} 
values = {Name=Tom, User=tombu, Dept=020} 
values = {Name=Kevin, User=bke, Dept=008} 

3 rows 

row token interval: 6..11 

row token interval: 12..17 


row token interval: 18. .23 


hdr 规 则 打印 出 了 上 面 的 第 一 行 输出 ， 然 后 三 次 对 row 的 调用 打印 出 了 
三 行 values=...。 此 时 ， 程 序 的 控制 流程 回 到 了 file 规 则 ， 它 的 动作 打印 
出 了 总 行 数 以 及 每 行 数据 包含 的 词法 符号 位 置 范围 。 


至 此 ， 我 们 已 经 掌握 了 内 髓 动作 的 用 法 ， 无 论 是 在 规则 内 部 还 古 规则 
外 部 。 此 外 ， 我 们 还 学 习 了 些许 有 关 规 则 属性 的 知识 。 不 过 ， 计 算 器 
和 CSV 处 理 右 的 例 了 于 都 只 在 文法 规则 中 使 用 了 动作 。 实 际 上 ， 动 作 在 


词法 规则 中 也 可 以 大 放 交 彩 。 我 们 将 会 在 下 一 下 中 通过 处 理 巨 量 和 动 
仿 的 关键 子 集合 ， 来 学 习 与 之 相关 的 知识 。 


10.3 识别 关键 字 不 固定 的 语言 


为 探 守 内 骨 在 词法 规则 中 的 动作 的 相关 知识 ， 让 我 们 为 一 门 虚拟 的 、 
关键 字 会 动态 变化 (每 次 运行 都 不 同 ) 的 编程 语言 编写 一 份 语法 。 这 
件 事 情 听 上 去 不 可 思议 ， 但 确实 是 可 能 的 。 例 如 ，Java 5 新 增 了 一 个 关 
键 字 enum， 因 此 同一 个 编译 侣 必须 能 够 根据 *-version” 选 项 动态 地 开局 
和 关闭 它 。 


也 许 ， 更 常见 的 应 用 是 处 理 拥有 巨 量 关 键 字 集合 的 语言 。 我 们 可 以 令 
词法 分 析 嚣 分别 匹配 所 有 的 关键 字 〈 作 为 独立 的 规则 ) ， 也 可 以 编写 
一 条 ID 规则 作为 分 发 磊 ， 然 后 在 一 个 关键 字 列 表 中 得 找 该 规则 匹配 到 
的 标识 符 。 如 末 词 法 分 析 右 发 现 该 标识 符 是 一 个 天 键 子 ， 我 们 可 以 它 
的 词法 符号 类 型 从 原先 通用 的 ID 类 型 改 成 相应 的 关键 字 类 型 。 


在 痢 手 实现 ID 规则 和 关键 字 碍 找 机 制 之 前 ， 让 我 们 先 来 编写 包含 天 键 
字 引 用 的 语句 规则 。 


actions/Keywords.g4 

stat: BEGIN stat* END 
| IF expr THEN stat 
| WHILE expr stat 
| ID '=' expr ';' 


expr: INT | CHAR ; 


虽然 ANTLR 会 隐 式 地 为 每 个 关键 字 (BEGIN、END 等 ) 定义 一 个 词法 


符号 类 型 。 但 是 ， 它 会 警告 我 们 ， 这 些 词法 符号 类 型 没有 对 应 的 词法 
定义 。 


$ antLr4 Keywords.g4 


warning(125): Keywords.g4:31:8: implicit definition of token BEGIN in parser 


为 关闭 这 个 警告 ， 我 们 需要 进行 显 式 定义 。 


actions/Keywords.g4 
// 显 式 定义 关键 字 的 词法 符号 类 型 ， 避 免 隐 式 定义 产生 的 警告 
tokens { BEGIN, END, IF, THEN, WHILE } 


在 生成 的 KeywordsParser 中 ，ANTLR 定 义 的 词法 符号 类 型 像 是 这 样 : 


public static final int ID=3, BEGIN=4, END=5, IF=6, ... 


既然 我 们 已 经 完成 了 词法 符号 类 型 的 定义 ， 让 我 们 看 看 这 份 语法 的 声 
明和 header 动 作 ， 它 导入 了 Map 和 HashMap。 


actions/Keywords.g4 

grammar Keywords ; 

@lexer: :header { // 只 在 词 
Import java.util.*; 


司法 分 析 器 中 放置 这 个 header， 在 语法 分 析 器 中 不 放置 它 


我 们 将 会 使 用 一 个 Map 存 放 从 关键 字 到 其 整数 词法 符号 类 型 的 映射 作为 


关键 字 表 。 另 外 ， 我 们 还 使 用 内 联 的 Java 实 例 初始 化 语句 (内 层 的 花 括 
号 中 的 代码 ) 定义 了 一 个 Map。 


actions/Keywords.g4 

GLexer: :members {  // 只 在 词法 分 析 器 中 放置 这 个 成 员 

Map<String,Integer> keywords = new HashMap<String,Integer>() {{ 
put("begin", KeywordsParser.BEGIN);, 


put(' a KeywordsParser.END); 
put ("zi KeywordsParser.IF); 
put(" et KeywordsParser .THEN); 
put(' whi le ,， KeywordsParser.WHILE) ; 
}}; 
} 


一 切 准 备 束 弹 之 后 ， 让 我 们 开始 进行 之 前 做 过 多 次 的 匹配 标识 符 的 
工作 ， 不 过 ， 这 次 我 们 使 用 了 一 段 动作 代码 来 将 词法 符号 类 型 设置 为 
恰当 的 值 。 


actions/Keywords.g4 


ID. : [a-zA-Z]+ 
{ 
if ( keywords.containsKey(getText()) ) { 
setType (keywords ,get(getText() ) ) ; // 重 置 词法 符号 类 型 
} 
} 


在 这 里 ， 我 们 使 用 了 Lexer 类 的 getText () 方法 来 获取 当前 词法 符号 的 
文本 内 容 。 我 们 根据 它 的 文本 内 容 来 确定 它 是 否 存在 于 keywords 中 。 
如 果 存 在 ， 那 么 我 们 就 将 该 词法 符号 的 类 型 从 ID 重 置 为 相应 关键 子 的 


词法 符号 类 型 。 


在 和 词法 分 析 器 打交道 时 ， 我 们 需要 清楚 如 何 修改 一 个 词法 符号 的 文 
本 内 容 。 它 可 以 用 于 剥离 字符 第 量 或 者 字符 串 凋 量 两 侧 的 引号 。 通 
常 ， 一 个 语言 类 应 用 程序 只 需要 引号 中 的 文本 。 下 面 是 使 用 setText () 
和 窗 放 一 个 词法 符号 中 的 文本 的 方法 : 


actions/Keywords.g4 

/** 将 31 个 字符 的 ， x' 输入 序列 转换 成 字符 串 x */ 

CHAR: '\'" . '\'" {setText( String.value0f(getText().charAt(1)) );} 

如 果 我 们 想 要 做 一 些 真 正 疯狂 的 事情 ， 我 们 甚至 可 以 用 setToken () 方 
法 指定 词法 分 析 器 返回 的 Token 对 象 。 这 是 一 种 返回 目 定 义 的 词法 符号 
的 方式 。 另 外 一 种 方式 是 覆盖 Lexer 的 emit () 方法 。 


至 此 我 们 已 经 准备 就 绪 ， 可 以 开始 体验 这 站 微型 语言 了 。 我 们 期 望 的 
行为 是 它 能 将 关键 字 和 和 常规 的 标识 符 区 分 开 ， 换 句 话 说，“x=34; ”应 
征 合 法 的 ， 但 是 “it=34; ”不 是 ， 因 为 if 十 一 个 关键 子 。 让 我 们 运行 
ANTLR， 编 译 生 成 的 代码 ， 然 后 使 用 合法 的 赋值 语句 测试 它 。 


过 $ antLr4 -no-Listener Keywords .g4 
今 $ javac Keywords*.]java 

今 $ grun Keywords stat 

x = 34; 

Eo 


没 问 题 ， 没 有 任何 错误 发 生 。 但 是 ， 当 试图 输入 将 it 用 作 标 识 符 的 赋值 
语句 时 ， 语 法 分 析 器 给 出 了 一 个 语法 错误 。 同 时 ， 它 也 能 接受 合法 的 让 
语句 而 不 输出 任何 错误 


过 $ grun Keywords stat 


> if = 34; 
> EOF 
《 line 1:3 extraneous input '=' expecting {CHAR, INT} 


Line 2:0 mismatched input '<EOF>' expecting THEN 
过 $ grun Keywords stat 
> 1if 1 then i = 4; 
=》 Eo 


如 果 你 很 不 笠 ， 正 在 为 一 门 在 某 些 上 下 文中 允许 将 关键 字 当 作 标 识 符 
的 编程 语言 构建 语法 分 析 器 ， 请 参阅 12.2 节 中 “关键 字 作为 标识 符 ? 部 


分 。 


相 比 语法 分 析 器 ， 词 法 分 析 器 需要 动作 的 情况 较 少 ， 不 过 在 诸如 需要 
修改 词法 从 号 类 型 或 者 文本 的 符 定 场 景 下 ， 它 们 仍然 相当 有 用 。 除 了 
在 对 输入 文本 进行 词法 分 析 时 执行 动作 之 外 ， 男 一 种 修改 词法 符号 本 
身 的 方法 是 但 看 词法 分 析 后 的 词法 符号 流 。 


在 本 章 中 ， 我 们 学 习 了 使 用 动作 在 语法 中 磐 入 程序 逻辑 代码 的 方法 ， 
这 些 动作 可 以 位 于 规则 内 ， 也 可 以 位 于 规则 外 ， 通 过 header 和 members 
发 挥 作用 。 我 们 也 看 到 了 如 何 定义 和 引用 规则 的 参数 和 返回 值 。 随 
后 ， 我 们 还 使 用 了 词法 符号 的 属性 ， 如 text 和 type。 合 在 一 起 ， 这 些 与 
动作 相关 的 特性 使 我 们 能 够 目 定义 ANTLR 生 成 的 代码 。 


再 次 提醒 ， 应 尽 可 能 地 避免 使 用 语法 中 的 动作 ， 因 为 它 将 一 份 语法 绑 
定 到 了 符 定 的 目标 编程 语言 上 。 不 仅 如 此 ， 动 作 还 将 语法 绑 定 到 了 一 
个 特定 的 程序 上 。 不 过 ， 你 可 能 并 不 在 乎 这 件 事情 ， 因 为 你 的 公司 一 
直 以 来 使 用 的 都 是 同一 门 语言 ， 你 的 语法 也 只 适用 于 特定 的 程序 。 在 
这 样 的 情况 下 ， 基 于 简便 或 者 效率 (省 去 了 建立 语法 分 析 树 的 开销 ) 
方面 的 原因 ， 在 语法 中 直接 栓 入 动作 束 变 得 非常 有 意义 了 。 最 重要 的 
是 ， 一 些 语法 分 析 问 题 需 要 运行 时 的 测试 才能 正确 识别 输入 文本 。 在 


下 一 章 中 ， 我 们 将 会 研究 一 种 名 为 语义 判定 的 任意 布尔 表达 式 ， 它 可 
以 动态 地 开局 或 首 关 闭 某 些 备 选 分 文 。 


第 11 章 使 用 语义 判定 修改 语法 分 析 过 程 


在 上 一 章 中 ， 我 们 学 习 了 如 何在 语法 中 藤 入 动作 ， 以 便 在 语法 分 析 的 
过 程 中 执行 应 用 的 相关 逻辑 。 无 论 如 何 ， 这 些 动作 代码 都 不 会 影响 语 
法 分 析 器 的 语法 分 析 过 程 ， 就 好像 记录 日 志 的 语句 不 会 影响 外 围 程序 
一 样 。 我 们 的 内 藤 动 作 仅仅 是 计算 一 些 值 或 者 打印 结果 。 但 是 ， 在 一 
些 罕 见 情况 下 ， 使 用 内 般 动 作 来 修改 语法 分 析 过 程 是 正确 识别 某 些 编 
程 语言 语句 的 唯一 方法 。 在 本 章 中 ， 我 们 将 会 学 习 一 种 特殊 的 动作 

{…}? ， 称 为 语义 判定 ， 它 允许 我 们 在 运行 时 选择 性 地 关闭 部 分 语法 。 
判定 本 身 是 布尔 表达 式 ， 它 会 减少 语法 分 析 峰 的 在 语法 分 析 过 程 中 可 
选项 的 数量 。 一 个 令 人 难以 置信 的 事实 是 ， 适 当地 减少 可 选项 的 数量 


会 增强 语法 分 析 瑚 的 性 能 ! 


语义 判定 可 以 在 两 种 常见 的 情况 下 发 挥 作用 。 第 一 ， 我 们 可 能 需要 语 
法 分 析 器 处 理 同一 门 编程 语言 稍 有 差异 的 多 个 版 本 (方言 。 例 如 ， 
数据 库 供应 商 的 SQL 语法 会 随 着 时 间 演 进 。 为 了 为 这 样 的 供应 商 编写 
数据 库 的 前 端 模块 ， 我 们 需要 文 持 同一 种 SQL 语言 的 不 同 版 本 。 与 之 
相似 ，Gnu 的 C 编 译 器 一 一 gcc 一 一 需要 处 理 ANSI C 和 自身 提供 的 方 

言 ， 这 些 方言 提供 了 一 些 扩展 ， 例 如 很 好 的 “动态 goto” 特 性 。 语 义 判 定 


允许 我 们 通过 命令 行 参数 或 者 其 他 动态 机 制 ， 在 运行 时 选择 所 使 用 的 


第 二 个 应 用 场景 包括 处 理 语法 的 歧义 性 (已 在 2.2 中 讨论 过 ) 。 在 某 些 
编程 语言 中 ， 相 同 的 语法 结构 具有 不 同 的 含义 ， 此 时 判定 机 制 提供 了 
一 种 方法 ， 让 我 们 能 够 在 对 相同 输入 文本 的 不 同 解释 中 做 出 选择 。 例 
如 ， 在 古老 的 Fortran 语 言 中 ,f (i) 既 可 以 是 数组 引用 ， 也 可 以 是 函数 
调用 ， 取 决 于 f 的 定义 是 什么 。 这 种 情况 下 ， 两 种 语义 的 语法 十 相 同 
的 。 编 译 右 必须 在 人 符号 表 中 查找 该 标识 人 特 ， 才 能 对 输入 作出 正确 解 


语义 判定 给 我 们 提供 了 这 样 一 种 途径 : 我 们 能 够 基于 符号 表 来 “ 关 
闭 ” 对 输入 文本 作出 的 错误 解释 。 这 使 得 语法 分 析 妖 别 无 选择 ， 只 能 采 
用 正确 的 解释 。 


我 们 将 通过 Java 和 C++ 中 的 一 些 例子 学 习 语义 判定 。 随后， 我 们 会 深入 
研究 它 的 细节 ， 你 也 可 以 阅读 15.7 参 考 章 世 ， 其 中 包含 了 对 细节 的 讨 
论 。 掌 握 了 内 崩 动 作 和 语义 判定 ， 我 们 避 ® 能 够 胸有成竹 地 处 理 下 一 章 


的 语言 识别 难题 了 。 


11.1 识别 编程 语言 的 多 种 方言 


首先， 我 们 会 学 习 如 何 使 用 语义 判定 来 关闭 Java 语 法 中 的 一 部 分 。 通 过 
在 运行 过 程 中 对 布尔 表达 式 求 值 ， 它 能 够 达到 识别 不 同方 言 的 目的 。 


在 本 例 中 ， 我 们 会 看 到 ， 如 何 使 同一 个 语法 分 析 器 在 支持 和 不 文 持 枚 
举 类 型 之 间 目 由 切换 。 


Java 语 言 在 近年 来 的 扩展 加 入 了 一 些 新 的 结构 ， 例 如 ， 在 Java 5 之 前 ， 
下 列 声明 是 非法 的 : 


predicates/Temp.java 
enum Temp { HOT, COLD } 


与 其 编写 两 个 编译 侣 来 处 理 这 两 种 稍 有 差异 的 方言 ，Java 目 带 的 编译 妖 
javac 有 一 个 -source 选 项 。 下 面 的 结果 显示 了 我 们 试图 以 Java 1.4 的 版 本 


编译 enum 的 结果 : 


$ javac -source 1.4 Temp.java 

Temp .java:1: enums are not supported in -Source 1.4 
(use -Source 5 or higher to enable enums ) 

enum Temp { HOT, COLD } 


1 error 
$ javac Temp.java # javac 默认 使 用 最 新 版 本 的 方言 ， 因 此 编译 得 以 通过 


引入 枚 举 类 型 使 得 enum 从 一 个 标识 符 变 成 了 一 个 关键 字 ， 引 发 了 向 后 
羔 容 问 题 。 许 多 遗留 代码 将 enum 用 作 变 量 名 ， 例 如 “int enum; ”。 如 来 
能 通过 一 个 编译 器 选项 来 识别 这 样 的 早期 方言 ， 我 们 束 无 须 仅 仅 为 了 
编译 通过 而 修改 它们 。 


为 初步 了 解 javac 处 理 多 种 方言 的 手段 ， 我 们 将 会 编写 一 份 语法 来 识别 
Java 的 部 分 片段 : enum 定 义 和 赋 值 语 句 。 我 们 的 最 终 目标 是 编写 出 能 


够 正确 识别 Java 5 之 前 和 之 后 的 版 本 的 语法 ， 不 过 ， 我 们 不 会 处 理 二 者 
混杂 的 情况 : enum 同 时 被 用 作 天 键 字 和 标识 符 是 非法 的 。 


enum enum { HOT, COLD } // 在 Java 的 任何 版 本 中 都 是 非法 的 


我 们 先 简 单 了 解 上 述 Java 子 集 语 法 的 核心 内 容 ， 人 然后 再 设法 处 理 enum 
关键 字 。 


predicates/Enum.g4 
grammar Enum; 
@parser: :members {public static boolean java5;} 


prog: ( stat 
| enumDecl 
)+ 
stat: id '=' expr ';' {System.out.println($id.text+"="+$expr.text);} ; 
expr 
id 
| INT 


到 这 里 我 们 已 经 很 熟悉 上 面 的 语法 结构 和 动作 了 ， 所 以 下 面 进一步 讨 


论 enum 的 声明 。 


enumDecl 
‘enum' name=id '{' id ('," id)* '}' 
{System.out.println("enum "+$name. text);} 


这 条 规则 识别 的 句法 是 简化 的 ) 枚 举 类 型 定义 ， 但 是 其 中 并 没有 指 
出 enum 在 某 些 时 候 古 非法 的 。 这 就 是 关键 所 在 :使 用 语义 判定 开局 和 
关闭 备 选 分 文 。 


predicates/Enum.g4 

enumDecl 
{java5}? 'enum' name=id '{' id (和 id)* '}' 
{System.out.println("enum "+$name.text);} 


{java5}? 判定 在 运行 的 时 候 求 值 ， 当 结果 为 假 时 ， 该 备 选 分 支 就 被 关 
闭 。 


你 可 能 注意 到 了 ， 我 们 使 用 规则 id 代替 了 名 见 的 ID。 这 是 由 于 enum 在 
Java 5 之 前 是 合法 的 标识 符 (词法 分 析 器 将 enum 人 处理 为 关键 字 ， 而 非 标 
识 衍 ，。 因 此 ， 我 们 就 需要 一 条 带 语义 判定 的 文法 规则 来 表述 这 种 选 
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predicates/Enum.g4 
lid ID 
| {!java5}? 'enum' 


{1! java5}? 判定 允许 enum 在 非 Java 5 模式 下 作为 普通 标识 符 使 用 。 从 字 
面 上 看 ， 当 java5 为 真 时 ， 它 关闭 了 第 二 个 备 选 分 文 。 在 内 部 ，ANTLR 
语法 分 析 器 将 规则 id 看 作 一 个 图 数据 结构 ， 类 似 图 11-1。 


id ( J () 
{Javas}? 


DO O 


图 11-1 将 规则 iq 看 作 一 个 图 数据 结构 

图 11-1 中 的 剪刀 表示 ， 语 法 分 析 器 在 ! java5 为 假 〈 即 java5 为 真 ) 时 剪 
掉 了 该 分 文 。 注 意 ， 由 于 判定 结果 是 互 斥 的 ，enum 声 明和 enum 标 识 符 
也 是 互 不 的 。 

我 们 可 以 使 用 grun 来 测试 上 述 语法 ， 不 过 我 们 首先 需要 一 个 可 以 识别 方 
言 切 换 的 测 斌 类。 下面 的 TestEnum 类 支持 使 用 一 个 -java5 参 数 来 开启 
Java 5 模式 。 


predicates/TestEnum.java 


int i = 0; 

EnumParser.java5 = false; // 默认 是 非 Java5 模式 

if ( args.length>0 && args[il].equals("-java5") ) { 
EnumParser.java5 = true; 
i++; 

} 


现在 我 们 就 可 以 开始 构建 和 编译 了 。 


$ antLr4 -no-Listener Enum.g4 
$ javac Enum*.java TestEnum.java 


让 我 们 首先 测试 Java 5 之 前 的 模式 ， 确 保 这 种 情况 下 ， 它 允许 enum 作 为 
合法 的 标识 符 ， 且 不 允许 枚 举 类 型 。 


这 $ java TestEnum 

> enum = 0; 

= Eo 

《 enum=0 

这 $ java TestEnum 

enum Temp { HOT, COLD } 
>》 Eo 


《 line 1:0 no viable alternative at input 'enum' 


相 比 之 下 ，Java 5 模式 不 应 该 将 enum 看 作 标 识 符 ， 但 是 应 该 允许 枚 举 类 
型 。 
今 $ java TestEnum -java5 
> enum = 0; 
今 Eor 
《Line 1:0 no viable alternative at input 'enum' 


今 $ java TestEnum -java5 
enum Temp { HOT, COLD } 
4 EOF 

《 enum Temp 


一 切 正 音 ， 在 继续 学 习 之 前 ， 让 我 们 来 看 一 看 判定 可 要 放置 的 位 置 。 
判定 可 以 开局 和 关闭 任何 在 通过 判定 后 能 被 匹配 的 规则 。 这 意味 着 ， 
我 们 无 须 将 {java5}? 判定 放置 在 enumDecl 中 ， 可 以 把 它 提 到 该 规则 调 
用 之 前 。 


prog:  ( {java5}? enumDecl 
| stat 


它们 在 功能 上 是 等 价 的 ， 在 本 例 中 ， 两 种 放置 方式 仅仅 存在 风格 上 的 
差异 。 关 键 在 于 ， 语 法 分 析 器 在 抵达 enumDecl 中 的 enum 之 前 ， 必 定 会 
在 〈.…) + 的 第 一 个 备 选 分 支 中 的 某 个 地 方 遇 到 一 个 判定 。 


这 就 是 利用 运行 期 开关 支持 多 方言 语法 的 编写 方法 。 如 果 你 希望 编写 
一 份 真实 的 Java 语 法 ， 你 就 需要 在 其 中 的 相应 规则 中 ， 集 成 这 些 我 们 称 
之 为 enoumDecl 和 id 的 判定 。 


除 此 之 外 ， 在 词法 分 析 闫 中， 语义 判定 也 可 以 通过 内 藤 动 作 来 发 挥 作 
用 。 


11.2 关闭 词法 符号 


在 本 节 中 ， 我 们 将 会 重新 解决 上 一 半 的 问题 ， 不 过 这 次 是 通过 在 词法 
分 析 悔 而 非 语 法 分 析 絮 中 使 用 判定 。 我 们 的 主要 思想 是 ， 令 词法 分 析 
妖 中 的 判定 动态 地 开启 和 关闭 词法 符号 (token) ， 而 非 语言 中 的 词组 
(phrase) 。 我 们 会 在 Java 5 之 前 的 模式 中 ， 关 闭 把 enum 当 作 关 键 字 的 
词法 规则 ， 将 其 作为 一 个 常规 的 标识 符 处 理 。 在 Java 5 模式 中 ， 我 们 会 
将 enum 当 作 一 个 天 键 字 类 型 的 词法 符号 处 理 。 这 大 大 们 化 了 语法 分 析 


苍 ， 因 为 它 可 以 通过 背 规 的 ID 词法 符号 来 匹配 标识 符 ， 而 无 须 使 用 iq 规 
则 。 


predicates/Enum2.g4 


stat: ID '=' expr ';' {System.out,.println($ID.text+"="+$expr.text);} ; 
expr: ID 


| INT 


词法 分 析 器 应 当 只 在 当前 方言 允许 的 情况 下 输出 ID 。 为 此 ， 我 们 需要 
在 匹配 enum 的 词法 规则 中 加 入 一 个 判定 。 


predicates/Enum2.g4 
ENUM : 'enum' {java5}? ; 


// 必须 放置 在 ID 规则 之 前 
ID : [a-zA-Z]+ ; 


需要 注意 的 是 ， 判 定 出 现在 词法 规则 的 右 侧 ， 而 非 像 文法 规则 一 样 的 
左 侧 。 这 是 由 于 在 语法 分 析 中 ， 语 法 分 析 器 会 对 之 后 的 内 容 进行 预 
测 ， 因 此 需要 在 匹配 备 选 分 文 之 前 进行 判定 。 


而 词法 分 析 器 不 进行 备 选 分 支 的 预测 。 它 们 仅仅 寻找 最 长 的 匹配 文 
本 ， 然 后 在 发 现 整个 词法 符号 后 作出 决策 (我 们 将 在 参考 章节 中 ,， 尤 
其 是 15.7 节 中 ， 进 行 深 入 学 习 ) 。 


当 java5 为 假 时 ， 该 判定 关闭 了 ENUM 规 则 。 当 它 为 真 时 ，ENUM 和 ID 
同时 匹配 了 字符 序列 e-n-u-m， 此 时 该 输入 存在 歧义 。ANTLR 总 是 通过 
选择 位 置 靠 前 的 规则 来 解决 词法 歧义 问题 ， 也 就 是 这 里 的 ENUM。 如 


果 我 们 把 二 者 的 位 置 反 过 来 ， 那 么 无 论 ENUM 是 否 税 开局 ， 词 法 分 析 


总 是 会 将 e-n-u-m 匹 配 为 ID 9 


这 种 词法 判定 的 解决 方案 的 优雅 之 处 在 于 ， 我 们 无 须 在 语法 分 析 器 中 
放置 一 个 判定 ， 用 于 在 非 Java 5 模式 下 关闭 enum 结 构 。 


predicates/Enum2.g4 
// 这 里 无 需 判定 ， 因 为 'enum' 词法 符号 在 !j ava5 的 情况 下 并 未 定义 
enumDecl 
'enum' name=ID '{' ID (',' ID)* '}' 
{System.out.println("enum "+$name.text);} 


其 中 ， 备 选 分 支 开 头 的 词法 符号 'enum' 会 寻找 这 样 一 个 关键 字 词 法 符 
号 。 词 法 分 析 器 只 有 在 Java 5 模式 下 才 会 将 其 输送 给 语法 分 析 器 ， 因 此 
当 java5 为 假 时 ，enumDecl 永 远 不 会 得 到 匹配 。 


现在 ， 让 我 们 确认 一 下 基于 词法 分 析 融 的 解决 方案 能 够 正确 处 理 这 两 
种 方言 。 首 和 匈 ， 在 非 Java 5 模式 中 ，enum 应 当 是 一 个 标识 符 。 


今 $ antLr4 -no-Listener Enum2 .9g4 

今 $ javac Enum2*.java TestEnum2 . java- 
今 $ java TestEnum2 

enum = 0; 

今 Eor 


《 enum=0 


( 注 : 该 文件 位 于 
https://media.pragprog.com/titles/tpantlr2/code/predicates/TestEnum2.java 
。 译 者 注 ) 


其 次 ， 由 于 enum 是 一 个 标识 符 ， 而 非 天 键 字 ， 所 以 语法 分 析 套 绝 不 会 
去 尝试 匹配 enumDecl。 它 别 无 选择 ， 只 能 将 enum Temp{HOT，COLD} 
当 作 赋值 语句 处 理 ， 从 而 发 生 了 语法 错误 。 


今 $ java TestEnum2 
> enum Temp { HOT, COLD } 


= Eo 
《Line 1:5 missing '=' at 'Temp' 
line 1:15 mismatched input ',' expecting 


line 1:22 mismatched input '}' expecting 


在 这 里 ，ANTLR 的 错误 恢复 机 制 在 开始 匹配 赋值 语句 时 ， 意 识 到 它 缺 
少 后 半 部 分 ， 于 是 开始 丢弃 词法 符号 ， 直 至 过 到 下 一 个 赋值 语句 为 
ne 


在 Java 5 模式 中 ， 赋 值 给 enum 是 非法 的 ， 但 是 枚 举 类 型 是 合法 的 。 


今 $ java TestEnum2 -java5 

> enum = 0; 

=》 EoF 

《 line 1:5 mismatched input '=' expecting ID 
过 $ java TestEnum2 -java5 

enum Temp { HOT, COLD } 

今 EoF 


《 enum Temp 


判定 会 拖 慢 词法 分 析 郁 ， 如 采 我 们 希望 完全 避免 它 ， 我 们 可 以 去 挥 
ENUM 规 则 ， 然 后 将 enum 作 为 天 键 子 处 理 。 然 后 我 们 整 可 以 按照 10.3 
斑 中 所 做 的 那样 ， 对 词法 符号 的 类 型 进行 相应 修改 。 


ID : [a-zA-Z]+ 
{if (java5 &é& getText().equals("enum")) setType(Enum2Parser.ENUM);} 


如 采 使 用 这 种 方式 ， 我 们 就 需要 额外 定义 一 个 ENUM 类 型 的 词法 符 


es) 


yp 


tokens { ENUM } 


出 于 效率 和 可 谈 性 的 原因 ， 应 该 尽量 避免 语法 分 析 需 中 的 内 藤 判 定 。 
作为 蔡 代 方案 ， 我 推荐 使 用 本 广 中 基于 词法 分 析 右 的 解决 方案 来 处 理 
Java 中 的 enum 问 题 。 不 过 ， 和 需要 注意 的 是 判定 也 会 同样 拖 慢 词法 分 析 
硬 ， 所 以 最 好 完全 不 使 用 它们 。 


这 束 古 语法 分 析 器 和 词法 分 析 絮 中， 语义 判定 的 基本 语法 和 用 法 。 语 
义 判 定 为 选择 性 的 关闭 部 分 语法 提供 了 一 种 直接 的 方式 ， 它 允许 我 们 
使 用 同一 份 语法 来 识别 相同 语言 的 不 同方 言 。 此 外 ， 我 们 可 以 通过 修 
改 布尔 表达 式 的 值 来 在 不 同方 言 中 动态 地 切换 。 现 在 ， 让 我 们 研究 一 
下 第 二 种 主要 应 用 场景 : 在 语法 分 析 右 中 使 用 判定 来 解决 输入 文本 的 
上 收 义 问题 。 


11.3 识别 歧义 性 文本 


在 上 文中 ， 我 们 了 解 了 如 何 基 于 一 个 价 单 的 布尔 变量 来 关闭 部 分 语 
法 。 这 种 情况 并 非 用 不 同方 式 匹 配 相同 的 输入 ， 我 们 仅仅 布 望 天 闭 特 


定 的 语言 结构 。 现 在 ， 我 们 的 目标 是 ， 在 处 理 具有 歧义 的 输入 文本 
时 ， 强 制 语 法 分 析 器 只 留 下 一 种 解释 方式 ， 而 将 其 余 的 解释 方式 全 首 
关闭 。 使 用 迷宫 进行 类 比 ， 当 我 们 可 以 用 同一 条 通行 口令 经 多 条 路 径 
通过 一 个 迷宫 时 ， 我 们 束 称 该 迷宫 和 通行 口令 是 具有 歧义 的 。 判 定 整 

征 迷 让 岔路 口上 的 ， 可 以 开关 的 、 用 于 通行 的 门 。 


Sy 


语言 的 此 义 生 一 件 糟 糕 的 事情 吗 ? 


聪明 的 编程 语言 设计 者 会 有 意识 地 避免 履 义 性 结构 ， 因 为 这 会 使 得 代 
码 难以 阅读 。 例 如 ，Ruby 中 的 f{0] 既 是 数组 { 的 第 一 个 元 素 的 引用 ， 又 
是 取 函 数 f 〈) 返回 的 数组 结果 的 第 一 个 元 素 。 更 有 意思 的 是 ， 中 间 带 
空格 的 f[0] 是 将 一 个 仅 有 一 个 元 素 0 的 数组 当 作 参数 传递 给 函数 f \) 。 
上 述 情 况 发 生 的 原因 下 在 Ruby 中 ， 函 数 调用 的 括号 是 可 选 的 。Ruby 爱 
好 者 们 现在 推荐 使 用 括号 ， 因 为 它们 的 卜 义 实在 太 疗 重 了 。 


在 开始 本 和 的 学 习 之 前 ， 我 必须 指出 ， 如 果 一 份 语法 能 够 以 多 种 方式 
匹配 输入 的 文本 ， 那 么 ， 通 常情 况 下 ， 这 份 语法 是 有 问题 的 (a 
grammar bug) 。 在 绝 大 多 数 语言 中 ， 语 法 本 身 仅 仅 说 明 如 何 解释 所 有 
的 有 效 语句 (参见 如 上 “语言 的 歧义 是 一 件 糟糕 的 事情 吗 ? ”栏目 ) 。 
这 意味 着 我 们 的 语法 对 于 每 个 输入 的 字符 流 ， 应 当 仅 以 一 种 方式 进行 
匹配 。 如 宁 有 多 种 解释 方式 ， 我 们 融 应 该 重 写 该 语法 ， 除 去 无 效 的 解 
和 样 方 趟 3 


即便 如 此 ， 在 茶 些 编程 语言 中 ， 仍 然 存 在 一 些 仅 靠 语法 本 身 不 足以 区 
其 含义 的 语句 。 这 些 语言 的 语法 需要 具有 一 定 的 歧义 性 ， 不 过 ， 上 收 
往 语句 在 具体 的 上 下 文中 就 会 具有 清晰 的 含义 ， 例 如 标识 符 的 定义 

(作为 类 名 还 是 函数 名 ) 。 我 们 需要 利用 判定 询问 当前 的 上 下 文 ， 以 
对 层 义 性 文本 作出 正确 的 解释 。 如 条 一 个 判定 能 够 成 功 地 解决 一 种 输 
入 文本 的 语法 层 义 问题 ， 我 们 就 称 这 种 输入 是 上 下 文 相关 的 (context- 


sensitive) 


分 
XX 


在 本 广 中 ， 我 们 计划 人 研究 一 些 C++ 的 细 市 。 据 我 所 知 ，C++ 是 最 难 进行 
准确 语法 分 析 的 编程 语言 。 我 们 将 会 站 完 学 习 如 何 区 分 画 数 调用 和 构 
千 器 风格 的 类 型 转换 ， 然 后 学 习 如 何 区 分 声明 和 表达 式 。 


1. 正 确 识别 C++ 中 的 T (0) 


到 


在 C++ 中 ， 表 达 式 T (0) 既是 函数 调用 ， 叉 古 构 造 器 风格 的 类 型 转 
换 ， 它 的 准确 合 义 取决 于 T 是 函数 名 还 是 类 型 名 。 因 为 相同 的 语句 能 够 
用 两 种 方式 解释 ， 所 以 该 表达 式 具有 歧义 性 。 为 进行 正确 的 解释 ， 语 
法 分 析 器 需要 依据 T 的 定义 关闭 某 个 备 选 分 文 。 下 面 的 简化 版 的 C++ 表 
达 式 规则 包 合 两 个 判定 ， 能 够 检查 ID 是 函数 名 还 是 类 型 名 。 


区 | 


predicates/CppExpr.g4 
/** 前 两 个 备 选 分 支 中 使 用 了 理想 化 的 判定 作为 区 分 这 两 种 情况 的 Demo */ 

expr: {isfunc(ID)»》}? ID '(' expr ')' // 一 个 参数 的 函数 调用 
{istype(ID)》}? ID '(' expr ')' // 构造 器 风格 的 对 expr 的 转换 
| INT // 整数 常量 

| ID // 标识 符 


expr 规 则 的 可 视 化 展示 如 图 11-2 所 示 ， 在 前 两 个 备 选 分 支 之 前 存在 切断 


点 (cut point) 。 


{isfunc(ID)}? 


expr OA -OOCLOreO-O 
RD .Da eaO7LO 
入 INT O 
O—O 
图 11-2 ”expr 规则 的 可 视 化 展示 


你 可 能 会 有 疑问 ， 为 什么 我 们 不 将 这 两 个 备 选 分 文 组 合成 一 条 规则 ， 
来 处 理 两 种 情况 〈 函 数 调用 和 类 型 转换 ) 呢 ? 原因 之 一 是 这 样 会 使 语 
法 分 析 树 遍历 咽 的 工作 变 得 复杂 。 如 果 不 分 配 两 个 方法 的 话 ， 承 会 存 
在 一 个 enterCallOrTypecast () 方法 。 在 此 方法 中 ， 我 们 必须 手动 区 分 
这 两 种 情况 ， 但 这 还 不 是 最 糟 的 。 


更 大 的 问题 在 于 ， 有 上 收 义 的 备 远 分 文 很 少 像 这 个 例子 一 样 结构 相同 。 
例如 ， 画 数 调 用 备 选 分 支 也 需要 处 理 没有 参数 的 情况 ， 如 T () 。 它 可 
不 是 一 个 合法 的 类 型 转换 ， 因 此 ， 将 两 个 备 选 分 文 组 合 在 一 起 实际 上 
征 行 不 通 的 。 同 样 ， 有 歧义 的 备 选 分 文 可 能 相 跟 其 远 ， 这 融 是 我 们 接 
下 来 要 讨论 的 话题 。 


2. 正 确 识别 C++ 中 的 T (i) 


考虑 到 上 文 讨 论 的 表达 式 的 变 体 T (i) 。 简单 起 见 ， 我 们 先 假设 我 们 
的 C++ 子 集中 不 存在 构造 器 风格 的 类 型 转换 。 此 时 ，T (i) 就 一 定 是 一 
个 钞 数 调用 了 。 不 邓 的 是 ， 按 照 语 法 ， 它 也 是 一 个 合法 的 声明 。 它 等 
价 于 Ti， 定 义 了 一 个 T 类 型 的 变量 i。 区 分 二 者 的 唯一 方法 仍然 是 通过 
上 上 下文。 如 果 T 是 类 型 名 ， 那 么 T (i) 就 是 变量 i 的 声明 。 否 则 ， 它 就 是 
将 i 作为 参数 的 函数 调用 。 


我 们 可 以 通过 一 个 小 型 的 C++ 语 法 来 展示 这 些 位 于 不 同 规则 中 的 、 有 歧 
义 的 备 选 分 支 。 我 们 不 妨 假设 C++ 的 语句 只 包含 声明 和 表达 式 。 


predicates/CppStat.g4 
stat: decl ';' {System.out.println("decl "+$decl.text);} 
| expr ';' {System.out.println("expr "+$expr.text);} 
前 两 个 备 选 分 支 中 使 用 了 理想 化 的 判定 作为 区 分 这 两 种 情况 的 Demo 


一 个 声明 既 可 以 是 Ti， 也 可 以 是 T (i) 。 


predicates/CppStat.g4 
decl: ID ID // 例如 "Point p" 
| ID'(' ID )  // 例如 "Point (p)"， 和 ID ID 等 价 


假设 一 个 表达 式 只 能 是 整数 常量 、 简 单 标识 符 或 者 单 参数 的 函数 调 
用 。 


predicates/CppStat.g4 

expr: INT // 整数 常量 
| ID // 标识 符 
| ID'(' expr ')' // 函数 调用 


如 果 我 们 用 上 述 语 法 测试 输入 (i) ; ”， 我 们 会 得 到 语法 分 析 器 给 出 
的 歧义 性 警告 (使 用 了 -diagnostics 选 项 ) 。 


过 $ antLr4 CppStat.g4 

过 $ javac CppStat*.java 

过 $ grun CppStat stat -diagnostics 

-> (LL); 

= Eo 

《 line 1:4 reportAttemptingFullContext d=0, input='f(i);' 
line 1:4 reportAmbiguity d=0:; ambigAlts={1, 2}, input="'f(1i);' 
decl f(i) 


语法 分 析 器 首先 告诉 我 们 ， 它 在 试图 使 用 简单 的 SLL (*) 策略 对 输入 
进行 语法 分 析 时 发 现 了 一 个 问题 。 由 于 该 策略 失败 了 ， 语 法 分 析 器 就 
换 用 了 更 加 强大 的 ALL (*) 机 制 。 详 见 13.7 节 。 使 用 了 这 种 全 语法 分 
析 算 法 (full grammar analysis algorithm) 后 ， 语 法 分 析 器 再 次 发 现 了 问 
题 。 此 时 ， 它 知道 输入 确实 存在 歧义 。 如 果 语 法 分 析 器 没有 发 现 问 

题 ， 它 就 会 打印 reportContextSensitivity 消 息 。 我 们 稍 后 将 会 学 习 有 关 歧 
义 性 警告 的 更 多 知识 。 


输入 文本 同时 匹配 了 decl 的 第 二 个 备 选 分 文 和 expr 的 第 三 个 备 选 分 文 。 
语法 分 析 亏 必须 在 stat 规 则 中 做 出 选择 。 给 定 两 个 可 用 的 备 选 分 文 ， 语 


法 分 析 器 解决 玻 义 问题 的 策略 是 选择 徘 前 的 那 一 个 《decl) 。 这 就 是 语 
法 分 析 器 将 “f (i) ; ”解释 成 声明 而 非 函数 调用 的 原因 。 


假如 我 们 拥有 一 个 能 够 告诉 我 们 某 个 标识 符 是 不 是 类 型 名 的 “ 神 论 ”， 
我 们 惑 能 通过 在 相应 的 备 选 分 文 之 前 放置 判定 来 解决 该 琉 义 问题 。 


predicates/PredCppstat.g4 


decl: ID ID VY WI "Point p" 

| {istype()}? ID '(' ID ')' // 如 "Point (p)", BPID ID 
expr: INT // 整数 

| ID // 标识 符 


| ”{!istype()}? ID '(' expr ')' // 函数 调用 


判定 中 的 istype () 辅助 方法 从 语法 分 析 器 处 获取 当前 词法 符号 中 的 文 
本 ， 然 后 在 我 们 预定 义 的 类 型 表 中 查询 该 文本 。 


predicates/PredCppStat.g4 

@parser: :members { 

Set<String> types = new HashSet<String>() {{add("7T");}}; 

boolean istype() { return types.contains(getCurrentToken().getText()); } 
} 


当 我 们 使 用 这 份 带 判定 的 语法 再 次 进行 测试 时 ， 输 入 守 i) ; ”被 正确 


地 解释 成 了 画 数 调用 表达 式 ， 而 非 声明 。 输 入 eT (i) ; ”也 被 正确 解释 
成 了 声明 。 


过 $ antLr4 PredCppStat.g4 

> $ javac PredCppStat*.java 

今 $ grun PredCppStat stat -diagnostics 
这 f(1); 

=» Eor 

《 expr f(i) 

过 $ grun PredCppStat stat -diagnostics 
这 T(1); 

=》 Eor 

《 decl T(i) 


图 11-3 所 示 的 语法 分 析 树 (使 用 grun-ps file.ps 命 令 创 建 清楚 地 显示 
出 ， 语 法 分 析 器 正确 地 解释 了 输入 的 文本 。 


语法 分 析 树 中 的 关键 厄 点 古 T 和 f 的 市 下 划 线 的 父 太 点 。 这 些 内 部 节 反 
告诉 我 们 语法 分 析 器 匹配 到 的 类 型 。 记 住 ， 语 言 识别 的 根本 意义 在 于 
区 分 不 同 语句 的 差异 ， 识 别 出 语言 各 组 成 部 分 。 我 们 当然 可 以 使 

用 “.+”( 匹 配 一 个 或 多 个 任意 字符 ) 来 匹配 所 有 可 能 的 输入 文本 ， 但 是 
它 不 能 给 我 们 传递 任何 信息 。 语 言 类 应 用 程序 的 关键 在 于 从 输入 中 获 
取 正 确 的 语言 结构 。 


图 11-3 ”正确 解释 了 输入 文本 的 语法 分 析 树 示例 


因为 判定 除去 了 错误 的 解释 方式 ， 上 述 C++ 例 子 中 的 歧义 性 消失 了 。 不 
痒 的 是 ， 还 存在 一 些 判定 无 法 解决 的 玻 义 问题 。 下 面 让 我 们 再 研究 一 
个 C++ 的 例子 ， 看 看 这 种 情况 是 如 何 发 生 的 。 


3. 正 确 识别 C++ 中 的 T (i) [5] 


C++ 引人入胜 的 地 方 在 于 ， 它 的 一 些 语句 具有 两 种 有 效仿 义 。 考 虎 
C++ 中 的 T (i) [5]。 即 使 我 们 知道 T 是 一 个 类 型 名 ， 上 壕 语 句 在 语法 上 
也 能 够 同时 解释 成 声明 和 表达 式 。 这 意味 着 ， 我 们 无 法 通过 测试 标识 
符 T 来 切换 解释 方式 ， 因 为 当 T 是 类 型 名 时 吏 存 在 两 种 解释 方式 。 


解释 为 声明 的 方式 是 将 它 当 作 一 个 具有 5 个 T 类 型 元 素 的 数组 : Til5]。 
解释 为 表达 式 的 方式 是 将 转换 为 类 型 T， 然 后 对 其 进行 索引 操作 。 


C++ 语言 规范 解决 这 种 收 义 问题 的 方案 是: 总 是 选择 声明 而 非 表达 式 。 
它 明白 无 误 地 告诉 人 类 如 何 解 释 T (i) [5]， 但 是 ， 即 便 我 们 加 入 了 语 
义 判定 ， 编 写 一 份 通常 意义 上 的 无 收 义 的 语法 也 是 不 可 能 的 。 


让 运 的 是 ， 语 法 分 析 絮 目 动 地 解决 了 该 上 下 义 问 题 ， 所 以 它 能 够 正常 工 
作 。 语 法 分 析 器 解决 下 义 问 题 的 原则 是 选择 位 置 靠 前 的 备 选 分 文 。 
此 ， 我 们 只 需要 确保 stat 中 ，decl 备 选 分 支 放 在 expr 备 选 分 文 之 前 即 可 。 


最 后 ， 在 对 C++ 进行 语法 分 析 时 ， 还 有 一 种 复杂 情况 需要 考虑 。 
4. 解 决 前 网 引 用 问题 


一 个 真实 的 C++ 语法 分 析 需 在 语法 分 析 的 过 程 中 遇 到 各 种 名 字 时 ， 必 须 
将 它们 记录 下 来 ， 以 便 计 算出 之 前 章节 提 到 的 类 型 表 或 者 其 他 用 于 区 
分 畏 数 名 和 类 型 名 的 表 。 在 C++ 中 ， 记 录 符 号 的 过 程 稍 有 投机 取 巧 之 
嫌 ， 不 过 原则 上 ， 它 不 算是 一 个 问题 。 在 之 前 章 市 构建 计算 器 的 例子 
中 ， 我 们 已 经 学 过 用 键 值 对 记录 变量 的 方法 。 问 题 在 于 ， 有 些 时 候 ， 
C++ 人 允许 对 符号 的 前 向 引用 ， 例 如 方法 和 变量 名 。 这 意味 着 我 们 可 能 在 
遇 到 T_ (i) 的 时 候 还 不 知道 T 是 不 是 一 个 函数 名 。 


你 可 能 开始 明日 了 ， 对 C++ 进行 语法 分 析 为 什么 这 么 难 。 唯 一 的 解决 方 
案 是 对 输入 文本 或 者 输入 文本 的 内 部 表示 (如 语法 分 析 树 ) 进行 多 趟 
扫描 。 


使 用 ANTLR， 最 商 单 的 方法 是 将 输入 文本 处 理 成 词法 符号 流 ， 然 后 快 
速 扫描 它 并 记录 所 有 的 符号 定义 ， 然 后 再 “质感 觉 ?对 这 些 词 法 符号 进 
行 语法 分 析 ， 获 得 正确 的 语法 分 析 树 。 


虽然 绝 大 多 数 编程 语言 不 会 过 到 这 样 的 眶 梦 般 的 卜 义 问题 ,但 是 由 于 
算术 运算 和 从 的 存在 ， 几 平 每 种 编程 语言 都 具有 歧义 性 。 例 如 ， 在 5.4 六 
中 ， 我 们 看 到 了 1+2*3 的 歧义 性 : 我 们 可 以 将 它 解释 成 (1+2) *3 或 者 
1+ (2*3) 。 


如 琳 我 们 将 语义 判定 看 作 能 够 开局 和 关闭 备 选 分 文 的 简单 布尔 表达 

式 ， 它 的 行为 殉 显 得 十 分 商 单 了 。 不 位 的 是 ， 包 人 多重 判定 和 内 藤 动 
作 的 语法 会 变 得 非常 复杂 。 本 书 中 的 参考 章 万 详细 介绍 了 ANTLR 中 判 
定 的 使 用 时 机 和 方法 。 如 果 你 不 打算 在 语法 中 大 量 使 用 混杂 了 动作 的 
判定 ， 你 可 以 跌 过 15.7-。 在 后 续 章 节 的 学 习 中 ， 这 些 细节 将 会 有 助 于 


解释 一 些 令 人 困惑 的 语法 问题 。 


掌握 通过 动作 和 语义 判定 来 定制 语法 分 析 如 的 方法 后 ， 我 们 就 拥有 了 
强大 的 武器 ， 在 下 一 章 中 ， 我 们 计划 利用 在 本 书 第 三 部 分 中 学 到 的 知 
识 ， 解 决 一 些 非常 难 的 识别 问题 。 


第 12 章 ”掌握 词法 分 析 的 “时 魔法 ” 


在 本 书 的 第 二 部 分 中 ， 我 们 已 经 学 到 了 一 些 高 级 技巧 。 我 们 知道 了 如 
何在 语法 分 析 的 过 程 中 执行 任意 代码 ， 并 且 学 会 了 使 用 语义 判定 来 修 
改 识别 语法 的 过 程 。 现 在 是 时 候 将 它们 付 诸 实践 ， 解 决 一 些 充满 挑战 
的 语言 识别 难 古 了 。 这 次 ， 让 我 们 从 词法 分 析 右 入 手 ， 而 非 语法 分 析 


已 以 


召 谨 2 


根据 我 的 经 验 ， 如 采 一 个 语言 识别 问题 难以 解决 ， 那 么 大 多 数 情况 
下 ， 最 棘手 的 部 分 位 于 词法 分 析 器 中 〈 当 然 ，C++ 是 一 个 例外 ， 它 到 处 
都 很 束 手 ) 。 这 和 我 们 的 直觉 相悖， 因为 迄今 为 止 我 们 看 到 的 词法 规 
则 都 十 分 简单 ， 例 如 标识 符 、 整 数 和 算术 运算 符 。 不 过 ， 考 虑 一 个 看 
上 去 非常 简单 的 二 字符 序列 : >>。Java 词 法 分 析 器 可 以 将 它 匹 配 成 右 
移 运 算 符 或 者 两 个 > 符号 ， 后 着 出 现在 泌 型 声明 的 结尾 处 ， 例 如 


List<List<String>> ° 


最 根本 的 问题 在 于 ， 词 法 分 析 器 进行 词法 分 析 工 作 ， 有 了 时 也 需要 一 些 
上 下 文 信息 对 词法 符号 作出 决策 ， 但 是 这 些 上 下 文 信息 只 被 语法 分 析 
稻 反 有。 我 们 将 在 12.2 中 探讨 这 个 问题 。 在 讨论 过 程 中 ， 我 们 还 会 看 
到 “关键 子 同 时 也 能 作为 标识 符 ” 的 问题 ， 并 壬 试 构建 一 个 用 于 处 理 

Python 的 上 下 文 相关 的 换行 符 的 词法 分 析 絮 。 


随后 我 们 会 看 到 的 问题 包括 孤岛 语言 (island language) 一 种 语句 
中 包含 “孤岛 部 分 ”和 “海洋 部 分 ”的 语言 ， 它 的 孤岛 部 分 和 是 我 们 所 需 处 理 
的 ， 海 洋 部 分 是 我 们 不 关心 的 内 容 。 这 样 的 例子 包括 XML 和 类 似 
StringTemplate 的 模板 语言 。 为 了 完成 这 种 语言 的 语法 分 析 ， 我 们 需要 
孤岛 语法 和 词法 模式 ， 它 们 将 在 12.3 广 中 介绍 。 


最 后 ， 我 们 会 根据 XML 规 范 ， 用 ANTLR 编 写 一 个 XML 词 法 分 析 器 和 语 
法 分 析 器 。 它 是 一 个 很 好 的 例子 ， 展 示 了 如 何 处 理 包含 不 同 内 容 (区 
域 ) 的 输入 文本 、 如 何 划分 语法 分 析 器 和 词法 分 析 器 的 界线 ， 以 及 如 
何 处 理 非 ASCII 字 符 。 


作为 热 届 ,我们 首先 学 习 忽 略 但 是 不 丢弃 特定 输入 区 域 一 -例如 注释 
和 至 日 字符 一 一 的 方法 。 这 项 技术 可 用 于 解决 一 些 语言 翻译 问题 ， 我 
们 会 展示 最 第 见 的 例子 。 


12.1 将 词法 符号 送 入 不 同 通道 


绝 大 多 数 编程 语言 忽略 词法 符号 间 的 空格 和 注释 ， 这 意味 着 它们 可 以 
出 现在 任何 地 方 。 这 束 给 语法 分 析 瑚 囊 来 了 一 个 难题 ， 它 必须 时 刻 考 
虑 两 种 可 选 的 词法 符号 的 存在 : 空白 字符 和 注释 。 和 常见 的 解决 方案 
征 ， 令 词法 分 析 夷 匹配 这 些 词 法 符号 并 丢弃 ， 这 融 是 我 们 在 本 书 中 所 
做 的 。 例 如 ，6.4 让 的 Cymbol 语 法 使 用 词法 分 析 胡 指令 skip 丢 弃 空 日 子 
符 和 注释 。 


examples/Cymbol.g4 
WS : [ \t\n\r]+ -> Skip ; 


SL_COMMENT 
: A A he = Skip 


在 绝 大 多 数 情况 下 ， 因 为 注释 不 影响 生成 的 代码 ， 这 种 方案 表现 出 色 
一 一 例如 编译 做 。 另 一 方面 ， 如 采 我 们 在 编写 一 个 将 遗留 代码 翻译 成 
现代 编程 语言 的 翻译 器 ， 那 就 真 的 需要 保留 其 中 的 注释 了 ， 因 为 它们 
征 代 码 的 一 部 分 。 这 市 来 一 个 难题 : 我 们 硕 望 保留 注释 和 择 日 字符 ， 

但 是 不 硕 望 在 语法 分 析 夯 中 时 第 检查 它们 ， 这 会 加 重 语法 分 析 需 的 负 
担 。 


1. 填 充 词法 符号 通道 


ANTLR 的 解决 方案 是 将 类 似 标识 符 的 正常 词法 符号 送 入 语法 分 析 屁 对 
应 的 通道 ， 其 余 内 容 送 入 另外 一 个 通道 。 通 道 就 像 不 同 的 广播 频率 。 
词法 规则 负责 将 词法 符号 放 入 不 同 的 通道 ，CommonTokenStream 类 仙 
责 只 对 语法 分 析 赂 骏 露 其 中 一 个 通道 。 在 此 期 间 ， 
CommonTokenStream 保 留 了 原先 词法 符号 的 顺序 ， 这 样 我 们 就 能 获取 
特定 的 语言 词法 符号 前 后 处 的 注释 内 容 。 图 12-1 从 CommonTokenStream 
的 角度 展示 了 一 个 C 语 言词 法 分 析 器 将 注释 和 空 日 字符 放 入 隐藏 通道 的 
过 程 。 


词法 


no Fry [全 面 Wi | 通道 1 ( 隐藏 
void f(int i); 一 心 
void a a Gin i 通道 0 


词法 符号 索引 : 0 1 2 34 5 6 7 8 9 10 


图 12-1 注释 和 至 日 字符 放 入 隐藏 通道 的 过 程 

我 们 可 以 轻易 地 将 注释 和 至 日 字符 分 别 送 入 不 同 的 通道 ， 而 正常 的 词 
法 符号 仍然 位 于 默认 的 0 通道 。 

这 样 ， 我 们 束 能 分 别 获取 注释 和 空 晶 字符 了 。 

过 在 对 应 的 词法 规则 上 放置 词法 分 析 器 指令 channel (...) ， 我 们 可 以 
将 词法 符号 送 入 不 同 通道 。 让 我 们 试 着 使 用 这 种 方法 修改 Cymbol 语 
法 ， 将 注释 放 入 隐藏 通 道 2， 空 日 字符 放 入 隐藏 通道 1， 如 图 12-2 所 示 。 

词法 


词法 符号 索引 : 0 7 8 9 10 


图 12-2 ”将 词法 符号 送 入 不 同 通 


lexmagic/Cymbol.g4 
WS : [ \t\n\r]l+ -> channel (WHITESPACE) ; // channel (1) 


SL COMMENT 
. '//' .*? '\n' -> channel (COMMENTS) // channel (2) 


常量 WHITESPACE 和 COMMENTS 源 于 语法 中 的 声明 。 


lexmagic/Cymbol.g4 

@lexer: :members { 
public static final int WHITESPACE = 1; 
public static final int COMMENTS = 2; 


站 


ANTLR 将 channel (HIDDEN) 翻译 为 Java 代 人 码 _ channelj=HIDDEN， 它 
将 Lexer 类 的 成 员 channel 设置 为 常量 HIDDEN。 我 们 可 以 使 用 任何 合法 
的 Java 标 识 符 作 为 channel () 指令 的 参数 。 


利用 grun 进 行 的 测试 结 采 显示 ， 注 释 出 现在 了 通道 2 上 ， 择 日 字符 出 现 
在 了 通道 1 上 ， 其 他 的 词法 符号 仍旧 出 现在 了 默认 通道 上 。 


这 $ antLr4 Cymbol.g4 

过 $ javac CymboLr .java 

今 $ grun Cymbol file -tokens -tree 
int i = 3; // testing 


= Eo 
《 [@0,0:2='int',<10>,1:0] 
[@1,3:3=' ',<24>,channel=1,1:3] <-- HIDDEN channel 1 


[@2,4:4='i' ,<22>,1:4] 
[@3,5:5=' ',<24>,channel=1,1:5] <-- HIDDEN channel 1 


[@4,6:6="="' ,<11>,1:6] 
[@5,7:7=' ',<24>,channel=1,1:7] <-- HIDDEN channel 1 
[@6,8:8='3' ,<23>,1:8] 
人 
[@8,10:10=' ',<24>,channel=1,1:10] <-- HIDDEN channel 1 


[@9,11:21='// testing\n',<25>,channel=2,1:11] <-- HIDDEN channel 2 
[@10,22:21="'<EOF>' ,<-1>,2:22] 
(file (varDecl (type int) i = (expr 3) ;)) <-- parse tree 


语法 分 析 树 也 表现 正常 ， 这 意味 着 语法 分 析 侨 对 输入 作出 了 正确 的 解 
释 。 即 ， 语 法 分 析 器 并 没有 直到 任何 注释 。 接 下 来 ， 我 们 将 会 学 习 在 
语言 类 应 用 程序 中 访问 隐藏 通道 注释 的 方法 。 


2. 访 问 隐藏 通道 


为 展示 从 语言 类 应 用 程序 中 访问 隐藏 通道 的 方法 ， 让 我 们 来 编写 一 个 
语法 分 析 树 监听 器 ， 将 声明 之 后 的 注释 移 到 声明 之 前 ， 并 将 它们 改写 
为 /#...#/ 风 格 。 例 如 ， 对 于 下 列 输入 : 


lexmagic/t.cym 
int n = 0; // 定义 一 个 计数 器 
int i = 9; 


我 们 预期 的 输出 为 : 


/* 定义 一 个 计数 器 *j 
int n = 0; 
int i = 9; 


我 们 的 基本 策略 是 使 用 TokenStreamRewriter 重 写 词 法 符号 流 ， 即 在 4.5 
节 中 “ 重 写 输入 流 ”* 部 分 中 所 完成 的 工作 。 在 发 现 变量 定义 时 ， 我 们 的 


程序 会 提取 右 侧 的 注释 (如 果 有 的 话 ) ， 然 后 将 它 插入 到 声明 的 第 一 
个 词法 符号 之 前 。 下 面 是 一 个 名 为 CommentShifter 的 Cymbol 语 法 分 析 
树 监 听 器 ， 它 位 于 名 为 ShiftVarComments 的 测试 类 中 : 


lexmagic/ShiftVarComments.java 

第 1 行 public static class CommentShifter extends CymbolBaseListener { 

BufferedTokenStream tokens ; 

TokenStreamRewriter rewriter， 

/** 创建 一 个 绑 定 到 词法 符号 流 上 的 TokenStreamRewriter 
5 * ”位 于 Cymbotl 词法 分 析 器 和 语法 分 析 器 之 间 

public CommentShifter(BufferedTokenStream tokens) { 
this.tokens = tokens; 
rewriter = new TokenStreamRewriter(tokens); 


10 下 
@Override 


public void exitVarDecl (CymbolParser.VarDeclContext ctx) { 
Token semi = ctx.getStop(); 
15 int i = semi.getTokenIndex(); 
List<Token> cmtChannel = 


tokens.getHiddenTokensToRight(i, CymbolLexer.COMMENTS); 
if ( cmtChannel!=null ) { 


Token cmt = cmtChanneL .get(0) ; 


20 if ( cmt!=null ) { 
- String txt = cmt.getText().substring(2); 
String newCmt = "/* " + txt.trim() + " */\n"; 


rewriter,.insertBefore(ctx.start, newCmt); 


rewriter.replace(cmt, "\n"); 
25 } 


所 有 的 事情 都 发 生 在 exitVarDecl () 中 。 首 先 ， 我 们 取得 声明 语句 中 的 
分 号 的 词法 符号 索引 值 〈 第 14 行 ) 因为 我 们 会 寻找 它 后 面 的 注释 。 第 


17 行 询问 词法 符号 流 ， 在 该 分 号 右 侧 的 COMMENT 通 道中 是 否 存 在 隐 


藏 的 词法 符号 。 简 单 起 见 ， 这 份 代码 假定 每 个 声明 后 仅 存 在 一 条 注 

释 ， 因 此 第 19 行 从 列表 中 获取 第 一 条 注释 。 接 下 来 ， 我 们 将 旧 的 注释 
改写 成 新 风格 的 注释 ， 然 后 使 用 TokenStreamRewriter 将 它 插入 到 变量 声 
明之 前 (第 23 行 ) 。 最 后 ， 我 们 将 原先 的 注释 用 换行 符 代 替 (第 24 
行 ) ， 相 当 于 将 它 移 除 。 


测试 程序 本 身 没有 什么 新 意 ， 唯 一 需要 注意 的 是 在 它 的 末尾 处 ， 我 们 
调用 TokenStream-Rewriter 类 的 getText () 方法 获得 了 重 写 后 的 输入 。 


lexmagic/ShiftVarComments.java 
CymbolLexer Lexer = new CymbolLexer(input); 
CommonTokenStream tokens = new CommonTokenStream(lexer); 
CymbolParser parser = new CymbolParser (tokens); 
RuleContext tree = parser.filel(); 
ParseTreeWalker walker = new ParseTreeWalker(); 

> CommentShifter shifter = new CommentShifter(tokens); 

> walker.walk(shifter, tree); 

> System.out.print(shifter.rewriter.getText()); 


下 面 是 构建 和 测试 的 步骤 : 


$ antLr4 Cymbol.g4 

$ javac Cymbol*.java ShiftVarComments .java 
$ java ShiftVarComments t.cym 

/* define a counter */ 

int n = 0; 
int i = 9; 


需要 注意 的 是 ， 如 果 我 们 丢弃 了 空白 字符 ， 而 非 将 它们 送 入 隐藏 通 
道 ， 那 么 输出 结 末 束 会 挤 在 一 起 ， 如 “intn=0; ”。 通过 将 输入 的 词法 符 


号 分 类 ， 词 法 符号 通道 解决 了 一 个 环 手 的 语言 翻译 问题 。 接 下 来 ,我 
们 一 起 研究 一 个 与 词法 符号 本 吴 的 构造 过 程 相 关 的 问题 。 


12.2 上 下 文 相关 的 词法 问题 


考虑 这 样 一 个 句子 "Brown leaves in the fall”。 它 是 有 歧义 的 ， 因 为 存在 
两 种 解释 。 如 采 我 们 指 的 是 树木 的 时 于， 这 句 话 融 是 在 朱 述 一 种 目 然 
现象 。 但 是 ， 如 果 我 们 正在 谈论 一 位 Jane Brown 女 士 ， 这 人 句 话 的 意义 就 
完全 被 上 下 文 改变 了 。“Leaves” 束 从 名 词 变 成 了 动词 。 这 种 情况 类 似 我 
们 在 11.3 节 中 解决 的 问题 ，C++ 中 存在 上 下 文 相关 的 语句 ， 如 T (0) 既 
可 以 是 函数 调用 语句 ， 也 可 以 是 类 型 转换 语句 ， 它 的 具体 合 义 取决 于 
当前 程序 中 的 Tf 定义 。 由 于 我 们 的 C++ 词 法 分 析 器 输送 给 语法 分 析 器 的 
是 信义 模糊 的 通用 了 D 词 法 符号 ， 上 壕 层 义 性 的 有 影响 更 加 显著 。 因 此 ， 
我 们 需要 在 文法 规则 中 加 入 语义 判定 来 选择 不 同 的 备 选 分 文 。 


此 外 ， 我 们 也 可 以 令 词 法 分 析 器 向 语法 分 析 器 输送 更 精确 的 词法 符 
号 ， 例 如 由 上 下 文 决定 的 FUNCTION_NAME 或 TYPE_NAME (对 

于 “Brown leaves” 这 样 的 输入 ， 我 们 就 需要 令 词 法 分 析 器 送出 词法 符号 
序列 ADJECTIVE NOUN 和 PROPER_NAME VERB) 。 不 幸 的 是 ， 这 种 
做 法 只 是 将 上 下 文 相关 的 问题 转移 给 词法 分 析 器 而 已 ， 而 词法 分 析 器 
能 够 得 到 的 上 下 文 信息 不 如 语法 分 析 器 多 。 这 就 是 我 们 在 之 前 章节 中 
的 文法 规则 中 加 入 判定 ， 而 非 依据 词法 上 下 文 向 语法 分 析 器 输送 更 精 
确 的 词法 符号 的 原因 。 
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解决 上 述 问 题 的 常用 方案 包括 从 语法 分 析 器 问 词法 分 析 器 发 送 反 馈 ， 

这 样 词法 分 析 器 就 可 以 同 语 法 分 析 句 输出 更 加 精确 的 词法 符号 。 由 于 
判定 数量 的 减少 ， 语 法 分 析 器 可 以 变 得 更 加 简单 。 然 而 ， 这 种 方案 在 
ANTLR 语 法 中 是 行 不 通 的 ， 因 为 ANTLR 自 动 生 成 的 语法 分 析 器 经 常 在 
词法 符号 流 中 进行 非常 远 的 前 脆 以 作出 语法 分 析 决 策 。 这 意味 着 ， 远 
在 语法 分 析 右 能 够 执行 提供 上 下 文 信息 的 行为 之 前 ， 词 法 分 析 器 就 需 
要 将 字符 流 处 理 为 词法 符号 。 


很 多 情况 下 ， 我 们 不 可 避免 地 需要 在 对 输入 字符 流 进行 词法 分 析 的 过 
程 中 处 理 上 下 文 相关 问题 。 在 本 世 中 ， 我 们 将 会 看 到 三 个 上 下 文 相关 


的 词法 问题 。 


-相同 的 字符 序列 在 语法 分 析 絮 中 具有 不 同 信义 。 我 们 将 会 处 理 广 为 人 
知 的 “天 键 子 也 能 作为 标识 符 ” 问 题 。 


相同 的 字符 序列 可 以 是 一 个 或 者 多 个 词法 符号 。 我 们 会 看 到 如 何 处 理 
Java 中 的 >>， 它 既是 两 个 泛 型 的 结束 符 ， 也 十 一 个 右 移 运算 符 。 


相同 的 字符 序列 在 茶 些 情况 下 需要 被 忽略 ， 某 些 情 况 下 需要 被 语法 分 
析 器 识别 。 我 们 将 会 学 习 如 何 区 分 Python 的 物理 (physical) 换行 符 和 
逻辑 (logical) 换行 答 。 解 决 这 个 问题 同时 需要 我 们 在 前 两 章 中 学 到 的 
词法 动作 和 语义 判定 技术 。 


1. 天 键 字 作为 标识 符 


许多 编程 语言 一 一 无 论 新 老 一 一 都 允许 关键 字 在 菜 些 上 下 文中 作为 标 
识 从 使 用 。 在 Fortran 中 ， 我 们 可 以 编写 类 似 end=gototif/while 的 代码 。 
C# 通 过 它 的 Language-Integrated Query (LINQ) 功能 提供 了 对 SQL 的 支 
持 。SQL 查 询 语句 以 关键 字 from 开 始 ， 但 是 我 们 也 可 以 把 from 当 作 变 量 
使 用 : x=from+where; 。 这 是 一 个 没有 歧义 的 表达 式 ， 而 非 一 个 碍 
询 ， 因 此 词法 分 析 器 不 应 该 将 该 from 当 作 标 识 符 。 问 题 在 于 ， 词 法 分 
析 妖 并 不 会 对 输入 文本 进行 语法 分 析 ， 也 就 无 从 得 知 需 要 将 哪 种 词法 
符号 送 给 语法 分 析 器 ， 是 KEYWORD_FROM， 还 是 ID。 


我 们 可 以 通过 两 种 方式 允许 关键 字 在 茶 些 上 下 文中 作为 标识 待 。 第 一 
种 是 令 词法 分 析 莫 将 所 有 的 关键 子 当 作 关 键 字 类 型 的 词法 符号 送 给 语 
法 分 析 器 ， 然 后 编写 一 条 文法 规则 id， 该 规则 匹配 ID 和 任意 的 关键 字 。 
第 二 种 是 令 词 法 符号 将 所 有 的 关键 子 当 作 标 识 符 ， 然 后 我 们 在 语法 分 
析 器 中 编写 如 下 判定 来 对 标识 人 符 的 名 字 进 行 测 试 : 


keyIF : { input.LT(1).getText().equals("if")}? ID ， 


在 巴黎 


我 曾 于 20 世 纪 80 年 代 后 期 在 巴黎 工作 ， 很 快 ， 在 打 电 话 时 ， 我 发 现 了 
一 个 问题 。 当 接听 电话 的 人 问 我 是 谁 时 ， 我 会 回答 Monsieur Parr， 但 是 


Parr 的 发 首 和 part 一 一 动词 “to leave” 的 第 三 人 称 单数 形式 一 一 非常 相 
似 。 所 以 我 的 回答 听 上 去 束 像 是 我 要 挂 电话 了 。 真 搞笑 。 


有 一 个 有 趣 的 法 语 的 绕口令 ， 其 中 的 每 个 单词 的 实际 意义 都 需要 上 下 
文 信息 才能 得 出 : “Si six cent scies scient six cent Saucisses，Ssix cent six 
scies scieront six cent six saucissons.” 它 的 书面 形式 虽然 充满 了 重复 单 

词 ， 但 是 含义 十 分 清楚 。 然 而 ， 当 读 出 来 时 ， 这 人 句 话 的 美文 发 诗 束 像 


是 : “See See saw, See See See sawW, sawcease, see saw see See seeron see 


saw see sawcease.” 翻 译 过 来 束 是 : “If six hundred saws saw six hundred 
sausages, six hundred and six saws will saw six hundred six 

sausages.”( 如 果 600 把 锯 子 锯 600 根 香肠 ， 那 么 606 把 锯 子 就 锯 606 根 香 
肠 ) 不 要 嘲笑 法 语 中 的 si、six、scies 和 和 scient 发 音 几 乎 相同 。 在 英语 中 
甚至 存在 一 些 单词 写法 相同 ， 但 是 发 音 不 同 的 现象 ， 例 如 read (现在 
时 ) 和 read (过 去 时 ) ! 


这 种 方式 非常 丑陋 ， 还 可 能 很 慢 ， 因 此 我 坚持 使 用 第 一 种 方式 (出 于 
完整 性 的 考虑 ， 我 在 PredKeyword.g4 中 留 下 了 一 个 能 够 对 关键 字 作 出 有 
效 判定 的 小 例子 ) 。 


下 面 是 一 份 示 例 语法 ， 它 展示 了 我 所 推荐 的 方式 ， 能 够 匹配 类 似 “f if 
then call call; ”的 诡异 输入 : 


lexmagic/IDKeyword.g4 
grammar IDKeyword; 


prog: stat+ ，; 


stat: 'if' expr 'then' stat 


| "att 1d 'y" 

| | 
expr: id 
id if' | 'call' | 'then' | ID 
ID : [a-z]+ ; 


WS : [ANrNnl+ -> Skip ; 


人 简 而 言 之 ， 这 种 方式 将 所 有 对 词法 符号 ID 的 引用 替换 成 了 对 文法 规则 id 
的 引用 。 如 果 你 正在 处 理 一 种 不 同上 下 文 对 应 不 同 关键 子 集合 的 编程 
语言 ， 你 就 需要 多 个 id 备 选 分 支 (每 个 上 下 文 一 个 ) 。 


下 面 是 IDKeyword 语 法 的 构建 和 测试 步骤 : 


> $ antLr4 IDKeyword.g4 
过 $ javac IDKeyword*.java 
这 $ grun IDKeyword prog 
> if if then call call; 
= Eor 


如 图 12-3 所 示 生 成 的 语法 分 析 树 显示 ， 第 二 个 让 和 第 二 个 call 被 当 作 了 
标识 符 处 理 。 


PTIO9 


stat 


Se 


if expr then stat 


/WN 


id call id ， 


| 


if call 


图 12-3 ”第 二 个 if 和 第 二 个 cal 被 当 作 标 识 符 处 理 的 语法 分 析 树 

在 这 个 问题 中 ， 词 法 分 析 器 必须 决定 输出 关键 字 类 型 的 词法 符号 还 是 
标识 符 类 型 的 词法 符号 ， 但 是 它 无 需 关心 这 些 词法 符号 究竟 由 哪些 字 
符 组 成 。 接 下 来 ， 我 们 将 会 解决 一 个 问题 ， 词 法 分 析 器 不 知道 每 个 记 
法 符号 由 多 少 个 字符 构成 

2 .避免 最 长 匹配 带 来 的 歧义 性 

通常 ， 词 法 分 析 器 生成 器 会 作出 这 样 的 假设 ， 在 每 个 位 置 上 ， 词 法 分 
析 器 应 当 尽 可 能 地 匹配 最 长 的 词法 符号 。 基 于 该 假设 的 词法 分 析 器 的 


表现 最 为 目 然 。 例 如 ， 对 于 C 语 言 中 的 +f=， 词 法 分 析 亏 应 当 匹 配 出 单一 
的 词法 符号 +=， 而 非 两 个 词法 符号 + 和 =。 然而， 我 们 必须 区 分 一 些 例 
SR 


在 C++ 中 ， 我 们 不 能 连续 放置 藤 套 的 沁 型 枯 插 号， 例如 A<B<C>>。 我 
们 必须 在 最 后 两 个 尖 括 号 之 间 加 入 一 个 空格 : A<B<C>>， 这 样 词法 分 
析 亏 才 不 会 将 两 个 尖 括 号 误 认 为 右 移 运算 符 >>。 仅 仅 为 了 规避 词法 问 
题 而 让 C++ 的 设计 者 修改 语言 本 身 是 不 现实 的 。 


有 多 种 解决 该 问题 的 方案 ， 最 简单 的 一 种 是 : 令 词 法 分 析 紫 从 不 将 >> 
序列 匹配 为 右 移 运算 符 ， 而 将 两 个 > 符号 输送 给 语法 分 析 器 ， 后 者 可 以 
利用 上 下 文 信息 对 其 进行 适当 的 组 狐 。 例 如 ，C++ 语 法 分 析 器 中 识别 表 
达 式 的 规则 可 以 匹配 两 个 右 尖 括 号 ， 而 非 单一 的 右 移 运算 符 。 回 顾 一 
下 4.3 廊 中 的 Java 语 法 ， 你 会 发 现 这 种 方案 的 一 个 范例 。 下 面 古 expr 规 则 
中 的 两 个 备 选 分 文 ， 它 们 将 单字 符 的 词法 符号 组 疼 成 多 字符 的 运算 


pa 


付 : 


tour/Java.g4 
| expression (' 


"a | Sas Ces Ls | gy "0 ) expression 
| expression (' =" | 


'>' '=' | '>' | '<') expression 


让 我 们 看 看 当 输入 右 移 运算 符 时 ， 词 法 分 析 器 向 语法 分 析 器 输送 的 词 


VE Ai 
法 符号 。 


$antlr4 Java.g4 

今 $ javac Java*.java 

> $ grun Java tokens -tokens 

1i= 1 >> 5; 

= Eor 

《 [@0,0:0='i',<98>,1:0] 
[@1,1:1=' ',<100>,channel=1,1:1] 
[@2 252==" <25>. 1821] 
[@3,3:3="' ',<100>,channel=1,1:3] 
[@4,4:4="1" ,<91>,1:4] 
[@5,5:5="' ',<100>,channel=1,1:5] 
[@6,6:6='>' ,<81>,1:6] <- - 两 个 '>' 词法 符号 ， 而 非 单 个 '>>' 
[@7,717="S” <81S,1:7] 
[@8,8:8=' ',<100>,channel=1,1:8] 
[@9,9:9='5',<91>,1:9] 
[@10,10:10="';' ,<77>,1:10] 
[@11,11:11='\n',<100>, channel=1,1:11] 
[@12,.12511l="<EQFS" :<=15; 2°:12|] 


下 面 是 输入 藤 套 沁 型 时 的 词法 符号 流 : 


$$ grun Java tokens -tokens 

今 List<List<String>> x; 

= Eor 

《 [@0,0:3='List',<98>,1:0] 
[@1y4:4="<" <55,1:4] 
[@2,5:8='List',<98>,1:5] 
[@3,9:9='<',<5>,1:9] 
[@4,10:15='String',<98>,1:10] 
[@5, 16:16='>"' ,<81>, 1:16] 
[@6,17:17='>' ,<81>,1:17] 
[@7,18:18='" ',<100>,channel=1,1:18] 
[@8,19:19='x' ,<98>,1:19] 
[@9 ,20:20=';' ,<77>, 1:20] 
[@10,21:21='\n',<100>, channel=1,1:21] 
[@11,22:21='<EOF>' ,<-1>,2:22] 


下 面 我 们 会 生成 上 述 输入 对 应 的 语法 分 析 树 ， 它 们 清晰 地 显示 出 > 词法 


符号 的 用 法 。 


这 $ grun Java statement -gui 
S11= 1 >> 5; 


» Eor 


过 $ grun Java localVariableDeclarationStatement -gui 


> List<List<String>> Xx; 


> Eo 


如 图 12-4 所 示 的 两 村 语 法 分 析 树 的 根 证 点 分 别 是 statement 和 


localVariableDeclaration-Statement 规 则 ， 其 中 人 尖 括 号 已 经 被 高 之 标记 。 


l= 1 S355; 


statement 


> 


statementExpression 


: 


expression 
pe 
expression = expression 
| NS 
i PA i 
ee / \ 


Se 
~ 


> > expression 


— 


primary expression 


i primary primary 
literal literal 
integerLiteral integerLiteral 
1 3 


List<List<String>> x; 


localVariableDeclarationStatement 


ES 


localVariableDeclaration ; 


Be ee 


es Pd es 


variableModifiers type variableDeclarators 


classOrlnterfaceType 
全 


variableDeclarator 


2 SS 
List typeArguments variableDeclaratorld 
2 | Ss 
a Be 
< typeArgument > x 
type 


classOrlnterfaceType 
2 
元 ee 
List typeArguments 
| 


— a 
2 Rs 
2 


< typeArgument > 
type 


classOrlnterfaceType 


String 


图 12-4 ， 尖 括 号 被 高 亮 标记 的 语法 分 析 树 


将 右 移 运算 符 作 为 两 个 单独 的 右 尖 括号 处 理 的 唯一 问题 在 于 : 语法 分 
析 亏 同样 会 接受 中 间 包 侣 空格 的 尖 括 号 >>。 欲 解决 这 个 问题 ， 我 们 可 
以 在 语法 中 加 入 语义 判定 ， 或 者 使 用 监听 右 / 访 问 絮 检查 生成 的 语法 分 
析 树 ， 确 保 多 个 > 词法 符号 的 列 序号 是 相 邻 的 。 在 语法 分 析 的 过 程 中 使 
用 判定 的 效率 不 高 ， 所 以 最 好 在 语法 分 析 结 束 后 检查 右 移 运 算 符 的 正 
确 性 。 毕 竟 ， 大 多 数 语 言 类 应 用 程序 都 需要 对 语法 分 析 树 进行 明 历 
(在 表达 式 规 则 中 使 用 判定 也 会 破坏 ANTLR 将 左 递归 规则 转换 为 非 左 
递归 规则 的 机 制 。 详 见 第 14 章 ) 。 


至 此 ， 我 们 已 经 看 到 了 将 词法 符号 放 入 不 同 通道 的 方法 ， 以 及 将 上 下 
文 相关 的 词法 符号 分 解 为 更 小 的 组 件 的 方法 。 接 下 来 ， 我 们 将 会 学 习 
如 何 根据 具体 的 上 下 文 ， 将 相同 的 字符 序列 处 理 为 不 同类 型 的 词法 符 


号 


SS O 
3. 有 趣 的 Python 换行 符 


对 于 开发 着 而 言 ，Python 的 换行 符 处 理 机 制 十 十 分 目 然 的 。 在 Python 
中 ， 语 句 的 终止 标志 是 换行 符 而 非 分 号 。 我 们 中 的 大 多 数 人 只 会 在 每 
行 中 放置 一 个 语句 ， 所 以 键入 额外 的 分 号 只 下 人 徒 萎 而 已 。 与 此 同时 ， 
我 们 不 希望 一 行 语句 过 长 ， 所 以 Python 在 特定 的 上 下 文中 会 忽略 换行 
人 特 。 例 如 ，Python 允 许 我 们 将 一 个 函数 调用 分 为 多 行 ， 如 : 


f(1, 


为 了 和 型 清楚 究竟 在 什么 时 候 需 要 忽略 换行 ， 让 我 们 将 Python 的 参考 指南 
中 所 有 有 关 换 行 的 部 分 摘录 出 来 ， 其 中 最 重要 的 部 分 如 下 所 示 : 


圆 括号 、 方 括号 或 者 伦 括 号 中 的 表达 式 可 以 分 散在 多 个 物理 行 中 。 


所 以 ， 如 肝 我 们 将 表达 式 1+2 中 的 + 后 插入 一 个 换行 符 ，Python 融 会 报 
告 一 个 错误 。 不 过 ， (1+2) 可 以 跨行 。 人 参考 指南 还 指出 , “ 隐 式 的 续 
行 可 以 市 有 注释 ”， 以 及 “允许 空 日 的 续 行 ”， 如 下 所 示 : 


f(1， # 第 一 个 参考 


2， # 第 二 个 参数 
# 带 有 注释 的 空 行 
3) # 第 三 个 参 类 


还 可 以 使 用 反 斜 本 ， 将 多 行 显 式 连接 为 一 个 逻辑 行 。 


两 个 或 多 个 物理 行 可 以 使 用 反 斜 杠 字 符 (\) 连接 成 一 个 逻辑 行 ， 方 式 
如 下 : 当 一 个 物理 行 以 一 个 不 在 字符 串 中 或 注释 中 的 有 反 斜 杠 结束 时 ， 
它 会 和 接 下 来 的 一 行 连接 形成 一 个 单独 的 逻辑 行 ， 反 矢 杠 和 后 面 的 换 
行 符 会 被 删 挥 。 


这 意味 着 ， 即 使 不 用 括号 ， 我 们 也 可 以 将 语句 分 散在 多 行 中 ， 如 : 


1+N 


虽然 手册 没有 明确 说 明 ， 但 是 “物理 行 以 .…… 的 反 斜 杠 结束 ”这 人 句 话 暗 
示 了 ， 在 \ 和 换行 符 之 间 没 有 任何 注释 存在 。 


上 述 描 述 市 来 的 结果 是 : 语法 分 析 器 和 词法 分 析 器 均 需 要 有 选择 地 保 
留 和 丢弃 部 分 换行 符 。 在 之 前 对 词法 符号 通道 的 学 习 中 ， 我 们 知道 ， 
令 语法 分 析 器 始终 检查 可 选 的 空 日 字符 不 是 一 个 好 办 法 。 这 意味 着 ， 
处 理 可 选 的 换行 符 成 为 Python 词 法 分 析 右 的 职责 。 这 束 变 成 了 为 一 个 语 
法 上 下 文 决定 词法 分 析 占 行为 的 问题 。 


齐 记 上 述 规 则 ， 让 我 们 一 起 编写 一 份 识别 简单 的 Python 代 码 的 语法 ， 它 
能 够 匹配 巍 值 语句 和 简单 的 表达 式 。 我 们 将 忽略 子 符 串 ， 以 便 专 注 于 
处 理 注释 和 换行 符 。 下 面 生 文法 规则 : 


lexmagic/SimplePy.g4 
file: stat+ EOF ; 


stat: assign NEWLINE 

| expr NEWLINE 

| NEWLINE // 忽略 空 行 
assign: ID '=' expr ; 


expr: expr '+' expr 
归 的 expr 有 


call: ID '(' ( expr (',' expr)* )? ')' 


List: '[' expr (',' expr)* ']' 


接 下 来 处 理 词法 分 析 器 ， 让 我 们 先 编写 几 条 熟悉 的 规则 。 匹 配 整 数 的 
INT 规 则 已 经 很 单 见 了 ， 此 外 ， 根 据 参 考 指南 ， 标 识 符 的 定义 如 下 : 


identifier : 
letter 


(letter|" ") (letter | digit | " ")* 
lowercase | uppercase 


使 用 ANTLR 标 记 转 写 的 结果 如 下 : 


lexmagic/SimplePy.g4 
ID. -3 [a-zA-Z ] [a-zA-Z 0-9]* ; 


随后 ， 我 们 需要 一 条 常见 的 匹配 空白 字符 的 规则 ， 以 及 一 条 匹配 换行 
符 的 规则 ， 后 者 会 将 NEWLINE 词 法 符号 输送 给 语法 分 析 器 。 


lexmagic/SimplePy.g4 

/** 终止 语句 的 逻辑 换行 符 */ 

NEWLINE 
' 1 \ We 学 1 \n' 


/** 注意 : 这 里 没有 考虑 Python 的 缩 进 规 则 */ 
WS : [ \t]+ -> skip 


为 了 处 理 Python 的 行 注释 ， 我 们 需要 一 条 能 够 剥离 注释 但 保留 换行 符 的 
规则 。 


lexmagic/SimplePy.g4 
/** 匹配 注释 。 这 里 不 匹配 换行 符 ， 因 为 我 们 需要 将 它 送 入 语法 分 析 器 */ 
COMMENT 


'#' ~[\r\n]* -> Skip 


我 们 希望 利用 NEWLINE 规 则 处 理 所 有 的 换行 伯 ， 使 得 : 


1 = 3# assignment 


能 够 被 看 作 一 个 赋值 语句 后 跟 一 个 NEWLINE 。 


现在 是 时 候 处 理 特殊 换行 符 的 问题 了 。 表 先 让 我 们 从 显 式 的 行 连接 问 
题 开始 。 我 们 新 增 了 一 条 规则 ， 匹 配 \ 后 面 紧 跟着 换行 符 的 情况 ， 并 将 


lexmagic/SimplePy.g4 
/** 忽略 反 斜 杠 换行 符 序列 。 这 条 规则 不 允许 注释 跟 在 反 斜 杠 后 面 ， 
* ”因为 它 后 面 必 须 是 换行 符 
*y 
LINE_ ESCAPE 
yh hr hh => skip 


这 意味 着 语法 分 析 器 不 会 看 到 上 述 字符 序列 。 现 在 ， 我 们 要 做 的 是 ， 
令 词 法 分 析 峰 忽略 括号 中 的 换行 符 。 这 意味 着 我 们 需要 一 条 名 为 

IGNORE_NEWLINE 的 词法 规则 ， 它 匹配 类 似 NEWLINE 的 换行 符 ， 并 
且 ， 如 果 该 换行 符 处 于 括号 中 ， 则 丢弃 之 。 因 为 二 者 匹配 的 是 相同 的 
字符 序列 ， 存 在 攻 义 性 ， 我 们 必须 使 用 一 个 语义 判定 来 区 分 它们 。 假 
设 存在 一 个 记录 当前 花 套 层 数 的 变量 nesting， 当 词法 分 析 器 遇 到 了 无 
括号 但 是 没有 遇 到 右 括号 时 ， 该 变量 大 于 零 ， 我 们 就 可 以 写 出 如 下 的 


INORE_NEWLINE: 


lexmagic/SimplePy.g4 
/** 嵌 套 在 (.. ) 或 者 [..] 中 的 换行 符 将 被 忽略 */ 
IGNORE NEWLINE 

- '\r'? '\In' {nesting>0}? -> skip 


此 规则 必须 放置 在 NEWLINE 之 前 ， 这 样 ， 当 判定 为 真 时 ， 词 法 分 析 峰 
就 会 按照 解决 歧义 性 的 默认 方法 ， 选 择 IGNORE_NEWLINE 规 则 。 我 们 
也 可 以 将 {nesting==0}? 判定 放 在 NEWLINE 中 来 达到 同样 的 效果 。 


在 发 现 方 括号 和 圆 括号 时 ， 我 们 需要 适当 地 调整 此 变量 的 值 (我 们 的 
语法 不 支持 化 括号 ) 。 首 先 ， 我 们 需要 定义 该 nesting 变 量 。 


lexmagic/SimplePy.g4 
GQLexer: :members { 
int nesting = 0; 


} 


随后 ， 我 们 需要 在 直到 括号 时 执行 一 些 动 作 代 码 ， 从 而 增 减 nesting 的 
值 。 如 下 列 规则 所 示 : 


lexmagic/SimplePy.g4 

LPAREN : '(' {nesting++;} ; 

RPAREN : ')' {nesting--;} ; 

LBRACK : '[' {nesting++;} ，; 
RBRACK : ']' {nesting--;} ，; 


严格 而 言 ， 我 们 需要 为 方 括号 和 圆 括号 各 设置 一 个 变量 ， 以 确保 括号 
的 精确 匹配 。 不 过 ， 实 际 上 我 们 无 须 担 心 类 似 [1，2) 这 样 的 不 匹配 的 
括号 ， 因 为 语法 分 析 絮 会 检测 到 该 错误 。 在 这 样 的 语法 错误 中 ， 对 换 
行 符 的 处 理 仿 差 是 无 天 紧要 的 。 


下 列 测 试 文件 对 Python 的 换行 行 和 注释 处 理 过 程 中 的 关键 元 素 进 行 了 测 
试 ， 空 行 被 忽略 、 在 括号 中 的 换行 符 被 保留 、 反 斜 杠 连同 紧 随 其 后 的 
换行 符 补 丢弃、 括号 中 的 注释 不 影响 换行 符 的 处 理 。 


lexmagic/f.py 
# 测试 
f(1，# 第 一 个 参数 


2，# 第 二 个 参数 
# 空 注释 行 
3) # 第 三 个 参数 


9g() # 尾部 的 注释 


下 面 的 构建 和 测试 步骤 将 送 给 语法 分 析 器 的 词法 符号 流 中 的 NEWLINE 


进行 了 高 亮 显 示 : 


$ antLr4 SimplePy.g4 

$ javac SimplePy*.java 

$ grun SimplePy file -tokens f.py 
> [@0,8:8='\n',<11>,1:8] 

[@1,9:9='f' ,<4>,2:0] 

[@2, 10:10='(',<6>,2:1] 

[@37511:11=*1" ,<5>.252] 


[4 123512= "<13 .2:3] 
[@5 ,29:29='2' ,<5>,4:2] 
[@6,30:30="',' ,<1>,4:3] 


[@7, 80:80='3' ,<5>,6:2] 
[@8,81:81="')',<7>,6:3] 
[@9,94:94='\n',<11>,6:16] 
[@10,95:95='\n' ,<11>,7:0] 
[@11,96:96='g',<4>,8:0] 
[@12,97:97='(',<6>,8:1] 
[@13,98:98=')',<7>,8:2] 
[@14,108:108='\n' ,<]11>,8:12] 
[@15,109:109='\n',<11>,9:0] 
[@16,110:110="'1"' ,<5>,10:0] 
[@17,111:111='+' ,<2>,10:1] 
[@18,114:114='2' ,<5>,11:0] 
[@19,115:115='+' ,<2>,11:1] 
[@20 ,118:118= '3' ,<5>, 12:0] 


vv 


YY 


> [@21,119:119='\n',<11>,12:1] 
[@22,120:119='<EOF>' ,<-1>,13:2] 


需要 特别 注意 的 是 ， 在 上 面 的 词法 符号 流 中 有 六 个 NEWLINE 词 法 符 
号 ， 但 是 fpy 文 件 中 存在 十 二 个 换行 符 。 我 们 的 词法 分 析 器 成 功 地 剔除 
了 六 个 换行 符 。 其 语法 分 析 树 如 图 12-5 所 示 ， 其 中 换行 符 已 经 被 高 亮 标 


直下 水 


file 
stat stat stat stat stat stat <EOF> 
\n A \n AN \n A 
call call ls 


a J A 


| 
f ( expr ，expr ，expr ) g ( ) expr + expr 3 


| | | 


1 区 3 1 


图 12-5 ”将 换行 符 高 亮 显示 的 语法 分 析 树 


第 一 个 换行 符 是 一 个 空 行 ， 被 语法 分 析 器 识别 为 一 个 空 语 句 (stat 规 

则 ) 。 第 三 个 和 第 五 个 换行 符 同样 也 是 空 语句 。 其 余 三 个 换行 符 都 是 
表达 式 语句 的 终止 符 。 使 用 Python 解释 器 运行 fpy (需要 有 适当 的 f () 
和 g () 定义 ) 可 知 ，fpy 是 合法 的 Python 代码 。 


在 上 文中 ， 我 们 解决 了 三 种 与 词法 符号 有 关 的 上 下 文 相关 问题 。 这 里 
的 上 下 文 是 由 语义 决定 的 ， 而 非 由 输入 文件 的 某 个 区 域 决定 。 接 下 
来 ， 我 们 计划 研究 这 样 的 输入 文件 : 其 中 一 些 独立 的 区 域 是 我 们 所 感 
兴趣 的 ， 它 们 被 我 们 不 关心 的 区 域 包围 。 


12.3 字符 流 中 的 孤岛 


迄今 为 止 ， 我 们 讨论 的 所 有 输入 文件 都 只 包含 一 种 语言 。 例 如 ， 
DOT、CSV、Python 和 Java 的 文件 都 只 包含 这 些 语言 的 文本 。 不 过 ， 还 
存在 另外 一 些 格式 的 文件 ， 其 中 的 结构 化 区 域 一 一 或 者 称 为 孤岛 一 一 
被 随机 的 文本 所 包围 。 我 们 称 这 样 的 格式 为 孤岛 语言 (island 

language) ， 并 且 使 用 孤岛 语法 (island grammar) 来 描述 它们 。 孤 岛 语 
言 的 例子 包括 StringTemplate 和 LaTeX 这 样 的 模板 引擎 语言 ， 不 过 以 
XML 最 为 突出 。 在 XML 文件 中 ， 结 构 化 的 标签 和 & 实体 被 大 片 我 们 不 
关心 的 文本 所 包围 〈 由 于 各 XML 标签 内 部 是 结构 化 的 ， 我 们 也 可 以 称 
XML 为 群岛 语言 [archipelago language]) 。 


一 些 文本 是 否 是 沂 岛 语言 通 币 取决 于 我 们 的 观 点 。 如 琳 我 们 编写 一 个 C 
预 处 理 右 ， 那 么 预 处 理 命令 束 构 成 了 孤 咏 语言 ， 而 C 代 码 束 是 周围 

的 “海洋 ”。 而 如 采 我 们 在 为 IDE 编 写 C 语 言 的 语法 分 析 右 ， 那 么 它 束 必 
须 名 略 预 处 理 命令 构成 的 “海洋 ”。 


在 本 世 中 ， 我 们 的 目标 是 学 习 如 何 忽略 “ 海 详 ”， 并 对 “孤岛 ?进行 词法 分 
析 ， 这 样 ， 语 法 分 析 絮 束 能 验证 这 些 “ 孤 咏 ” 中 的 语法 是 否 正确 。 在 下 
一 广 中 ， 我 们 需要 这 两 种 方式 来 编写 一 个 真正 的 XML 语 法 分 析 器 。 首 
和 完 ， 我 们 来 学 习 如 何 从 XML 文 件 的 “海洋 ”中 区 分 出 “孤岛 ”。 


为 将 XML 的 标签 和 普通 文本 区 分 开 ， 我 们 首先 想到 的 方案 是 编写 一 个 
处 理 输入 字符 流 的 过 滤器 ， 丢 弃 标 签 之 间 的 全 部 内 容 。 这 样 也 许 能 够 
令 词 法 分 析 器 更 加 容易 识别 出 孤岛 部 分 ， 但 过 滤 侣 会 丢弃 所 有 的 普通 
文本 内 容 一 一 这 是 我 们 不 希望 看 到 的 。 例 如 ， 对 于 输入 
<name>John</name>， 我 们 并 不 希望 丢弃 John 。 


真正 的 解决 方案 是 ， 首 先 编写 一 份子 XML 语法 ， 它 将 标签 内 的 文本 识 
别 为 一 种 词法 符号 ， 标 签 外 的 文本 识别 为 另 一 种 词法 符号 。 由 于 本 章 
主要 天 注 词法 分 析 器 ， 我 们 会 使 用 一 条 规则 来 匹配 一 串 标 签 、& 实 体 、 
CDATA 区 域 以 及 普通 文本 ( 即 海洋 部 分 ) 

lexmagic/Tags.g4 


grammar Tags; 
file : (TAG|ENTITY|TEXT|CDATA)* ; 


file 规 则 并 不 验证 XML 的 格式 是 否 正 确 


[4 
"9 


它 只 识别 XML 中 的 各 种 词法 


SS 
en 


为 正确 地 分 割 XML 文 件 ， 我 们 为 孤岛 部 分 指定 了 词法 规则 ， 而 在 最 后 
放置 了 一 条 名 为 TEXT 的 规则 来 兜 底 ， 它 匹配 其 余 的 任何 内 容 。 


lexmagic/Tags.g4 

COMMENT : '<!--” .*? '-->' -> Skip ，; 

CDATA : '<![CDATA[' .*? ']]>' ; 

TAG : "< .*? '>';// 必须 放置 在 其 他 类 似 标签 的 结构 之 后 
ENTITY 3 “&' as*? "2™ 3 

TEXT : ~[<&]+ ; // 除 < 和 & 之 外 的 任意 字符 序列 


上 述 规 则 大 量 使 用 了 “.*? ” 非 信 禁 匹 配 〈 详 见 5.5 节 中 “匹配 字符 串 稼 
量 ” 部 分 ， 它 会 一 直 向 后 扫描 ， 直 至 过 到 匹配 后 续 规则 的 内 容 为 止 。 


TEXT 规则 匹配 一 个 或 多 个 字符 ， 只 要 它们 不 是 标签 或 者 实体 的 起 始 字 
符 即 可 。 可 能 有 人 想 要 使 用 “.+" 代 符 “>[<&]+”， 那 样 的 话 ， 一 旦 进入 了 
循环， 它 束 会 否 挥 所 有 的 输入 字符 。 因 为 TEXT 中 的 “.+” 后 面 没 有 任何 
内 容 ， 所 以 该 循环 就 无 法 停止 。 


这 里 使 用 了 一 个 细微 但 重要 的 解决 歧义 性 的 方案 。 在 2.3 节 中 我 们 学 
到 ，ANTLR 词 法 分 析 器 解决 歧义 性 的 方法 是 选择 语法 文件 中 位 置 靠 前 
的 规则 。 例 如 ，TAG 规 则 匹配 尖 括 号 中 的 任意 内 容 ， 而 这 也 包括 了 注 
释 和 CDATA 区 域 。 由 于 我 们 的 COMMENT 和 CDATA 规 则 位 置 靠 前 ， 
TAG 规 则 就 只 能 匹配 到 其 他 规则 无 法 成 功 匹 配 的 标签 。 


需要 注意 的 是 ， 技 术 上 ，XML 不 允许 以 “--->” 结 尾 的 注释 和 包含“--” 的 
注释 。 使 用 我 们 在 9.4 广 中 学 到 的 方法 ， 我 们 可 以 为 这 些 非 法 的 注释 编 
写 词法 规则 ， 和 输出 指定 的 错误 消 轧 。 


BAD COMMENT1: ‘</--' .*? ->， 


{System.err.println("Can't have ---> end comment");} -> Skip ; 
BAD COMMENT2 : < |)*#? > 
{System.err.println("Can't have -- In comment");} -> Skip ; 


不 过 ， 为 简单 起 见 ， 我 们 暂时 不 把 上 述 两 条 规则 加 入 我 们 的 Tags 语 法 


现在 ， 让 我 们 看 看 我 们 的 子 XML 语 法 是 如 何 处 理 下 列 输入 的 ; 


lexmagic/XML-inputs/cat.xml 

<?xml version="1.0"” encoding="UTF-8"?> 
<?do not care?> 

<CATALOG> 

<PLANT id="45">0rchid</PLANT> 
</CATALOG> 


下 面 是 构建 和 测试 步骤 ， 使 用 了 grun 来 打印 词法 符 豆 : 


$ antLr4 Tags.g4 

$ javac Tags*.java 

$ grun Tags file -tokens XML-inputs/cat.xml 
[@0,0:37='<?xml version="1.0" encoding="UTF-8"?>',<3>,1:0] 
[@1,38:38='\n',<5>,1:38] 

[@2,39:53='<?do not care?>' ,<3>,2:0] 
[@3,54754="\n" ;<55,2:15] 
[@4,55:63='<CATALOG>' ,<3>,3:0] 
[@5,64:64='\n' ,<5>,3:9] 

[@6,65:79='<PLANT id="45">' ,<3>,4:0] 
[@7,80:85='Orchid' ,<5>,4:15] 
[@8,86:93='</PLANT>' ,<3>,4:21] 
[@9,94:94='\n' ,<5>,4:29] 
[@10,95:104='</CATALOG>' ,<3>,5:0] 
[@11,105:105='\n' ,<5>,5:10] 
[@12,106:105='<EOF>' ,<-1>,6:11] 


该 语法 正确 地 读 取 了 XML 文件 ， 并 匹配 了 其 中 的 孤岛 部 分 和 普通 文 
本 。 但 是 ， 它 并 没有 提取 出 标签 中 的 内 容 供 语 法 分 析 侣 检查 。 


使 用 词法 模式 处 理 上 下 文 相关 的 词法 符号 


标 等 内 外 的 文本 实际 上 是 不 同 的 语言 。 例 如 ，id='"45" 在 标签 外 仅仅 是 
普通 文本 ， 但 是 在 标签 内 部 则 是 三 个 词法 符号 。 在 某 种 意义 上 ， 我 们 
希 诅 XML 词 法 分 析 器 根据 上 下 文 使 用 不 同 的 规则 进行 匹配 。ANLTR 近 
供 了 词法 模式 (lexical mode) ， 人 允许 词法 分 析 器 在 不 同 的 上 下 文中 切 
换 (模式 ) 。 在 本 节 中 ， 我 们 计划 学 习 词 法 模式 ， 利 用 它 来 改进 上 一 
斑 中 的 子 XML 语 法 ， 这 样 ， 它 瓯 能 将 标 等 中 的 各 组 成 部 分 送 给 语法 分 
析 夫 。 


词法 模式 允许 我 们 将 单个 词法 分 析 屁 分 成 多 个 于 词法 分 析 髓 。 词 法 分 
析 恬 会 返回 被 当前 模式 下 的 规则 匹配 的 词法 符号 。 一 门 语言 能 够 进行 
模式 切换 的 一 个 重要 要 求 是 包含 清晰 的 词法 “哨兵 ”， 它 能 够 触发 模式 
的 来 回 切 换 ， 例 如 尖 插 号。 换言之 ， 模 式 的 切换 只 依赖 于 词法 分 析 器 
可 以 从 输入 文本 中 获得 的 信息 ， 而 不 依赖 于 语义 上 下 文 。 


为 简 音 起见， 我 们 先 编写 一 份 XML 语 法 的 子 集 ， 其 中 标签 仅 包 含 标识 
符 而 不 包含 属性 。 我 们 会 使 用 默认 模式 匹配 标签 外 的 海洋 部 分 ， 另 外 
一 个 模式 匹配 标签 内 的 内 容 。 当 词法 分 析 融 在 默认 模式 下 发 现 < 时 ， 它 
就 应 当 切 换 到 孤岛 模式 ( 即 标 签 内 部 模式 ) 并 疝 语法 分 析 器 输出 一 个 


标签 起 始 词 法 符号 。 当 词法 分 析 占 在 内 部 模式 下 发 现 > 时 ， 它 束 应 该 切 
换 回 默认 模式 并 输出 一 个 标签 结束 词法 符号 。 内 部 模式 需要 一 些 规 则 
来 匹配 标识 符 和 /。 下 列 规则 运用 了 上 述 蛇 略 : 


lexmagic/ModeTagsLexer.g4 
Lexer grammar ModeTagSsLexer; 


// 默认 模式 下 的 规则 ( 海洋 部 分 ) 


OPEN : '<' -> mode(ISLAND) ; // 切换 到 ISLAND 模式 

TEXT : ~'<'+; // 收集 所 有 的 文本 

mode ISLAND ; 

CLOSE “> -> mode(DEFAULT MODE) ; // 回 到 SEA 模式 

SLASH : '/' 

ID : [a-zA-Z]+ ; // 匹配 标签 中 的 ID 并 将 其 输送 给 语法 分 析 器 


OPEN 和 TEXT 规则 位 于 默认 模式 下 。OPEN 匹 配 单 个 <， 使 用 词法 分 析 
器 指令 model (ISLAND) 来 切换 模式 。 之 后 ， 词 法 分 析 器 就 只 会 使 用 
ISLAND 模 式 下 的 规则 进行 工作 。TEXT 匹 配 任 意 非 标签 起 始 字 符 的 序 
列 。 由 于 这 些 词法 规则 中 不 包含 skip 指 令 ， 因 此 所 有 的 文本 都 会 被 匹配 


为 词法 符号 送 给 语法 分 析 器 。 


在 ISLAND 模式 中 ， 词 法 分 析 器 匹配 >、/ 和 ID 词法 符号 。 当 词法 分 析 器 
发 现 > 时 ， 它 会 执行 切换 回 默认 模式 的 指令 ， 该 模式 由 Lexer 类 中 的 党 
量 DEFAULT_MODE 标 识 。 这 束 是 词法 分 析 器 来 回 切 换 模 式 的 方法 。 
和 Tags 语 法 一 样 ， 这 份 稍 大 的 XML 语法 子 集 对 应 的 语法 分 析 器 能 够 匹 


配 标签 和 文本 块 ， 改 进 之 处 在 于 ， 我 们 现在 使 用 了 tag 规 则 来 匹配 独立 
的 标签 元 取 而 非 一 个 蛙 独 的 标签 词法 符号 。 


lexmagic/ModeTagsParser.g4 
parser grammar ModeTagSsParser; 


options { tokenVocab=ModeTagsLexer; } // 使 用 ModeTagsLexer.g4 中 的 词法 符号 
file: (tag | TEXT)* ; 


tag: * “<” ID "> 
| a SR ID sss 


其 中 唯一 令 我 们 感到 陌生 的 语法 是 tokenVocab 选 项 。 当 我 们 的 语法 分 析 
器 和 词法 分 析 器 位 于 不 同文 件 中 时 ， 我 们 需要 确保 两 个 文件 中 的 词法 
符号 类 型 和 词法 符号 名 称 一 致 。 例 如 ， 词 法 分 析 融 中 的 词法 符号 OPEN 
必须 和 语法 分 析 融 中 的 同名 词法 符号 具有 相同 的 词法 符号 类 型 。 


搂 下 来 让 我 们 构建 这 份 语法 ， 并 使 用 一 些 XML 样 例 输 入 来 对 它 进 行 测 
试 。 


今 $ antLr4 ModeTagsLexer.g4  # 必须 先进 行 这 一 步 ， 以 获得 ModeTagsLexer.tokens 
> $ antLr4 ModeTagsParser.g4 

> $ javac ModeTags*.java 

今 $ grun ModeTags file -tokens 


> HeLLo <name>John</name> 

2》 Eo 

《 [@0,0:5='Hello ',<2>,1:0] 
[@1,6:6='<' ,<1>,1:6] 
[@2,7:10='name' ,<5>,1:7] 
[@3,11:11='>' ,<3>,1:11] 
[@4, 12:15='John' ,<2>,1:12] 
[@5, 16:16='<' ,<1>,1:16] 
[@6,17:17='/' ,<4>,1:17] 
[@7,18:21='name' ,<5>,1:18] 
[@8 ,22:22= '>' ,<3>,1:22] 
[@9,23:23='\n' ,<2>, 1:;23] 
[@10,24:23='<EOF>' ,<-1>,2:24] 


词法 分 析 器 将 <name> 作 为 三 个 词法 符号 (索引 值 分 别 为 1、2、3) 送 给 
语法 分 析 器 。 还 需要 注意 的 是 ， 海 洋 部 分 中 的 Hello 能 够 匹配 ISLAND 
模式 下 的 ID 规则 ， 但 是 ， 因 为 词法 分 析 器 起 始 状 态 是 默认 模式 ， 所 以 
Hello 被 识别 成 了 TEXT 词法 符号 。 你 可 以 从 索引 值 为 0 和 2 的 词法 符号 在 
词法 符号 类 型 上 的 差异 发 现 这 一 点 : name 是 ID 类 型 的 词法 符号 (词法 


符号 类 型 为 5) 。 


我 们 希望 在 语法 分 析 旧 而 非 词 法 分 析 右 中 匹配 标签 语法 的 妨 一 个 原因 
是 ， 语 法 分 析 器 在 执行 动作 代码 上 具有 的 灵活 性 远 远 高 于 词法 分 析 
器 。 另 外 ， 语 法 分 析 器 能 够 自动 建立 语法 分 析 树 ， 如 图 12-6 所 示 。 


file 


Hello tag John tag \n 


2 | 


< Name > < /name > 


图 12-6 ”语法 分 析 絮 目 动 建立 的 语法 分 析 树 


为 将 语法 应 用 于 实际 程序 ， 我 们 既 可 以 使 用 通常 的 监听 峰 或 者 访问 峰 
机 制 ， 也 可 以 为 语法 增加 动作 。 例 如 ， 我 们 可 以 不 建立 树 ， 而 是 使 用 
语法 的 内 骨 动 作 触 发 SAX 方 法 调用 来 实现 XML 的 SAX 事 件 机 制 。 现 
在 ， 我 们 已 经 知道 了 如 何 将 XML 的 海洋 部 分 和 孤岛 部 分 分 开 ， 也 了 解 
了 如 何 向 语法 分 析 器 输送 标签 的 各 组 成 部 分 ， 下 面 我 们 将 编写 一 个 真 
正 的 XML 语 法 分 析 器 。 


12.4 对 XML 进行 语法 分 析 和 词法 分 析 


由 于 XML 是 一 门 已 经 被 严格 定义 的 语言 ， 在 开始 我 们 的 XML 工程 之 
前 ， 最 好 先 研究 一 下 W3C 的 XML 语言 定义 。 不 幸 的 是 ， 该 XML 规范 
(下 面 简称 规范 ) 巨大 无 比 ， 很 容易 在 浩如烟海 的 细节 中 迷失 方向 。 
为 简单 起 见 ， 我 们 会 忽略 掉 在 处 理 XML 文 件 中 不 需要 的 东西 : <! 

DOCTYPE..> 文 档 类 型 定义 (DTD) ，<! ENTITY> 实 体 声 明 ， 以 及 


<! NOTATION..> 符 号 声明 。 上 毕竟， 处 理 上 述 标签 教 会 我 们 的 知识 不 会 
比 处 理 其 他 结构 多 。 


我 们 计划 首先 编写 一 些 XML 的 语义 规则 。 一 个 好 消 居 是 ， 我 们 可 以 将 
规范 中 的 非 正 式 语法 规则 逐 字 转 写 成 ANTLR 标 记 。 


1.XML 规 范 转 换 为 ANTLR 文 法 语法 


运用 之 前 的 经 验 ， 我 们 能 够 很 快 地 完成 XML 语 法 的 编写 。 为 避免 遗 
漏 ， 让 我 们 仔细 研究 一 下 规范 中 的 关键 语法 规则 。 


document := prolog element Misc* 
prolog := XMLDecl? Misc* 
content := CharData? 
((element | Reference | CDSect | PI | Comment) CharData?)* 

element := EmptyELemTag 

| STag content ETag 
EmptyElemTag ::= '<' Name (S Attribute)* 9? '/>' 
STag ::= < Name (9 Attribute)* S? '>' 
ETag := '</' Name 393? '>' 
XMLDecl := '<?xml' VersionInfo EncodingDecl? SDDecl? 9? '?>' 
Attribute := Name Eq AttValue 
Reference := EntityRef | CharRef 
Misc := Comment | PI | S 


我 们 还 需要 许多 其 他 的 规则 ， 不 过 它们 都 是 词法 规则 。 这 有 是 一 个 很 好 
的 、 展 示 如 何在 词法 规则 和 文法 规则 间 划 分 界线 的 例子 。 按 照 我 们 在 
5.6 世 中 的 讨论 ， 需 要 遵循 的 关键 准则 是 我 们 是 否 需要 了 解 某 个 元 素 的 
内 部 细 市 。 例 如 ， 我 们 不 关心 注释 或 者 处 理 指 令 (Processing 
Instructions，PI) ， 所 以 可 以 令 词法 分 析 器 将 其 匹配 为 文本 块 。 


下 面 让 我 们 比较 一 下 规范 中 的 非 正 式 规则 与 下 列 完整 的 ANTLR 文 法 语 
法 。 与 我 们 先前 编写 的 其 他 语言 一 一 例如 JSON 和 Cymbol 一 一 相 比 ， 
XML 的 文法 规则 十 分 徐 单 。 


lexmagic/XMLParser.g4 
parser grammar XMLParser ; 
options { tokenVocab=XMLLexer; } 


document E prolog? misc* element misck; 
prolog XMLDeclOpen attribute* SPECIAL CLOSE ; 
content : chardata? 


((element | reference | CDATA | PI | COMMENT) chardata?)* ; 
element l '<' Name attribute* '>' content '<' '/' Name '>' 
'<' Name attribute* '/>' 


reference : EntityRef | CharRef ，; 


attribute  : Name '=' STRING ; // 我 们 的 STRING 就 是 规范 里 的 AttValue 
/** 其 余 所 有 未 标记 的 文本 构成 了 文档 中 的 
* ”字符 数据 


*/ 
chardata E TEXT | SEA WS ; 
misc 8 COMMENT | PI | SEA WS ; 


规范 中 的 规则 和 我 们 编写 的 规则 存在 诸多 显著 差异 。 首 先 ， 规 范 中 的 
规则 XMLDecl 只 能 匹配 三 个 特定 属性 (version、encoding 和 
standalone) ， 而 我 们 的 规则 能 够 匹配 <? xml...? > 中 的 任意 属性 。 稍 
后 ， 将 有 一 个 语义 分 析 的 阶段 来 确保 属性 的 名 字 是 正确 的 。 当 然 ， 我 
们 也 可 以 通过 语法 中 的 判定 来 解决 此 问题 ， 但 是 那样 会 使 语法 的 可 读 
性 和 效率 变 差 。 


prolog : XMLDecl versionInfo encodingDecl? standalone? SPECIAL CLOSE ; 


versionInfo :; { input.LT(1).getText().equals("version")}? Name '=' STRING ; 
encodingDecl : { input.LT(1).getText().equals("encoding")}? Name '=' STRING ， 
standalone ; {_input.LT(1).getText().equals("standalone")}? Name '=' STRING ; 


外 一 个 老 别 是 ， 我 们 的 词法 分 析 亏 会 匹配 并 丢弃 标签 中 、 属 性 间 的 
3 白字 符 ， 这 样 我 们 就 无 须 在 element 规 则 中 检查 空白 字符 了 (element 
之 前 章 市 的 tag 规 则 的 增强 版 ) 。 我 们 的 词法 分 析 器 还 区 分 出 了 空白 
字符 (SEA_WS) 和 标签 外 的 非 空白 文本 (TEXT) ， 不 过 ， 它 会 将 二 
者 都 当 作 词法 符号 输送 给 语法 分 析 器 (在 之 前 章 和 中， 标签 外 的 所 有 
文本 都 被 当 作 一 个 单独 的 TEXT 词法 符号 处 理 ) 。 这 是 由 于 ， 规 范 虽 然 
允许 空 日 字符 的 存在 ， 但 在 特定 位 置 上 不 允许 其 出 现 ， 例 如 根 元 素 
前 。 因 此 ， 在 我 们 的 语法 中 ，chardata 是 一 条 文法 规则 ， 而 非 一 个 词法 
符号 。 现 在 XML 语法 分 析 器 已 经 基本 可 用 ， 接 下 来 我 们 将 构建 词法 分 
析 右 ， 以 获取 更 多 的 经 验 。 


红 沿 


[二 


2. 将 XML 词法 符号 化 


通过 从 规范 中 提取 所 需 的 相关 规则 ， 我 们 束 可 以 开始 编写 XML 词法 分 


Comment ‘<!l--' ((Char - '-') | ('-' (Char - 1-')))* '-->' 


CDSect := '<![CDATA[' CData ']]>' 
CData := (Char* - (Char* ']]>' Char*)) // anything but ']]>' 
PI := '<?' PITarget (9 (Char* - (Char* '?>' Char*)))? ?>， 


/** 除 'xml' 之 外 的 任何 名 字 */ 

PITarget ::= Name - (('X | x') (CM | m) (L | '1')) 
/** 规范 指出 ，CharData 是 不 包含 任何 标记 的 开始 符 和 

* “CDATA 区 域 结束 符 " ] ]>" 的 任意 


* ”字符 串 
站 
CharData := [~^<&]* - ([^<&]* ']]>' [^<&]*) 
EntityRef ::= '&' Name ';' 
CharRef := '&#' [0-9]+ ';' 
| '&#x' [0-9a-fA-F]+ “和 
Name ::= NameStartChar (NameChar)* 
NameChar = NameStartChar | "-" | "." | [0-9] | #xB7 
| [#x0300-#x036F] | [#x203F-#x2040] 
NameStartChar 
::= ":" | [A-Z] | " " | [a-z] | [#xCO-#xD6] | [#xD8-#xF6] 
| [#xF8-#x2FF] | [#x370-#x37D] | [#x37F-#xlFFF] 
| [#x200C-#x200D] | [#x2070-#x218F] | [#x2C00-#x2FEF] 
| [#x3001-#xD7FF] | [#xF900-#xFDCF] | [#xFDFO-#xFFFD] 
| [#x10000-#xEFFFF] 
AttValue ::= '"' ([^<&"] | Reference)* '"' 
| "'™" ([^<&'] | Reference)* "'" 
S ::= (#x20 | #x9 | #xD | #xA)+ 


真是 复杂 ! 我 们 会 将 它 分 解 为 三 个 不 同 的 模式 ， 并 逐个 编写 之 。 我 们 
需要 的 模式 分 别 是 标签 外 、 标 签 内 ， 以 及 特殊 的 <? ...? > 标签 内 ， 这 和 
我 们 在 12.3 节 中 “使 用 词法 模式 处 理 上 下 文 相关 的 词法 符号 ”部 分 中 所 做 
的 非常 相似 。 


比较 规范 中 的 规则 和 我 们 的 词法 规则 ， 你 可 以 发 现 ， 我 们 可 以 复 用 大 
多 数 规则 的 名 字 。 虽 然 规范 中 摘 述 规则 的 符号 和 ANTLR 差 别 很 大 ， 但 
是 我 们 可 以 从 大 多 数 规则 中 提取 出 核心 思想 。 让 我 们 从 默认 模式 开 


台 ， 它 匹配 标签 外 的 海洋 部 分 。 下 面 是 我 们 的 词法 分 析 吉 的 语法 片 


段 : 


lexmagic/XMLLexer.g4 
Lexer grammar XMLLexer; 


// 默认 模式 : 标签 外 

COMMENT 和 
CDATA : "<![CDATA[' .*? ']]>' 
/** 包括 所 有 的 DTD、 类 似 <!ENTITY .. .> 

* ”的 实体 定义 以 及 记号 声明 <!NOTATION .. .> 
*/ 


DTD . 人 -> Skip ; 
EntityRef p '&' Name “7 
CharRef '&#' DIGIT+ ';' 
| '&#x' HEXDIGIT+ ';»' 
SEA WS (人 
OPEN Wey -> pushMode(INSIDE) ; 
XMLDeclOpen : '<?xml' S -> pushMode(INSIDE) ; 
SPECIAL OPEN: '<?' Name -> more, pushMode(PROC INSTR) ，; 
TEXT : ~[<&]+ ; // 匹配 任意 除 < 和 & 之 外 的 16 位 字符 


( 注 ， 即 Java 中 的 char。 译 者 注 ) 


上 述 语 法 首 移 处 理 了 可 被 视 作 完整 的 词法 符号 的 词法 结构 ， 即 
COMMENT 和 CDATA 词 法 符号 。 随 后 ， 我 们 匹配 并 丢弃 了 所 有 人 符合 

<! .> 形式 的 文档 、 实 体 和 标记 声明 。 在 本 例 中 ， 我 们 不 关心 它们 。 接 
下 来 是 一 些 规则 ， 用 以 匹配 各 种 各 样 的 实体 和 空 日 字符 词法 符号 。 最 
后 是 TEXT 规 则 ， 它 匹配 除 标 签 或 实体 的 起 始 字 符 之 外 的 任意 输入 文 
本 。 它 实际 上 是 一 种 特殊 的 “else 语 句 ”。 


下 面 是 最 有 趣 的 部 分 。 当 词法 分 析 器 发 现 标 签 的 起 始 字 符 时 ， 它 就 需 
要 切换 上 下 文 ， 使 得 之 后 的 词法 符号 被 当 作 一 个 标签 的 合法 部 分 处 
理 ， 这 束 是 OPEN 规 则 完成 的 工作 。 和 仅仅 使 用 了 mode 指 令 的 
ModeTagsLexer 语 法 不 同 ， 我 们 使 用 的 是 pushMode 《以 及 稍 后 提 到 的 
popMode) 。 一 旦 将 某 种 模式 “ 进 栈 ”， 词 法 分 析 历 就 可 以 在 未 来 将 该 模 
式 “ 出 栈 "， 从 而 返回 到 “调用 者 ?对 应 的 模式 。 它 将 在 藤 套 的 模式 切换 中 
大 显 号 手 ， 不 过 我 们 暂时 还 没有 用 到 它 。 


紧 随 其 后 的 两 个 规则 用 于 区 分 特殊 的 <? xml...? > 标签 和 常规 的 <? …? 
> 处 理 指令 。 由 于 我 们 希望 令 语法 分 析 器 匹配 <? xml...? > 标签 中 的 属 
性 ， 词 法 分 析 器 需要 返回 一 个 XMLDeclOpen 词 法 符号 并 切换 到 INSIDE 
标签 模式 ， 在 该 模式 下 ， 属 性 词法 符号 会 得 到 匹配 。SPECIAL_OPEN 
规则 匹配 其 他 的 <? ...? > 标签 并 切换 到 PROC_INSTR 模 式 〈 稍 后 我 们 将 
会 看 到 ) 。 它 使 用 了 一 个 不 太 常 见 的 词法 分 析 器 指令 more， 它 命令 词 
法 分 析 器 寻找 下 一 个 词法 符号 ， 下 一 个 词法 符号 将 包含 当前 词法 符号 


的 文本 。 


当 处 于 PROC_INSTR 规 则 中 时 ， 我 们 通过 IGNORE 规 则 ， 令 词法 分 析 器 
将 所 有 的 字符 放 在 一 起 ， 直 到 发 现 处 理 指令 的 结束 字符 “? >” 为 止 。 


lexmagic/XMLLexer.g4 

mode PROC INSTR.; 

PI . “73 -> popMode ; // 关闭 <?...?> 
IGNORE : -> more ，; 


这 就 是 匹配 除 <? xml...? > 标签 之 外 的 '<? '*? '? >' 处 理 指令 的 方法 。 
SPECIAL_OPEN 规 则 也 能 够 匹配 <? xml， 但 是 由 于 位 置 靠 前 ， 
XMLDeclOpen 规 则 在 词法 分 析 器 中 的 优先 级 更 高 ， 详 见 2.3 和 中 的 讨 
论 。 不 过 ， 只 用 一 条 '<? '.*? '? > 规则 ， 然 后 在 PROC_INSTR 模 式 中 处 
理 所 有 的 事情 是 行 不 通 的 。 因 为 '<? '.*? '? >' 匹 配 的 字符 序列 要 比 '<? 
xmlS 长 得 多 ， 所 以 词法 分 析 器 永远 不 会 匹配 到 XMLDeclOpen。 这 种 情 
况 和 12.2 节 中 “避免 最 长 匹配 带 来 的 歧义 性 ?部 分 中 的 词法 分 析 器 优先 选 
择 一 个 >> 而 非 两 个 > 相似 。 


注意 ，SPECIAL_OPEN 引 用 了 Name 规 则 ， 而 它 并 没有 出 现在 现 有 的 两 
种 模式 中 。 它 位 于 我 们 稍 后 即将 看 到 的 INSIDE 模 式 中 。 模 式 仅 仅 告诉 
词法 分 析 器 使 用 哪 一 组 规则 来 匹配 词法 符号 。 因 此 ， 一 条 规则 调用 另 

一 个 模式 中 的 规则 是 完全 可 行 的 。 不 过 ， 需 要 记 住 的 是 ， 词 法 分 析 峰 

仅 能 将 当前 词法 模式 所 定义 的 词法 符号 类 型 返回 给 语法 分 析 器 。 


最 后 一 种 模式 是 INSIDE 模 式 ， 它 识别 标签 内 的 所 有 元 素 ， 如 : 


title id="chap2", center="true" 


标签 内 的 词法 结构 再 次 证 明了 5.3 市 中 的 结论 ， 从 词法 角度 看 ， 许 多 语 
言 是 相同 的 。 例 如 ， 一 个 C 语 言 的 词法 分 析 器 能 够 富 不 费力 地 对 XML 


标签 中 的 内 容 进行 词法 符号 化 。 


下 面 就 是 处 理 标签 内 部 结构 的 最 后 一 种 模式 .: 


lexmagic/XMLLexer.g4 
mode INSIDE; 


CLOSE 


-> popMode ; 


SPECIAL CLOSE: '?>' -> popMode ; // 关闭 <?xml...?> 
SLASH CLOSE « Fe -> popMode ; 
SLASH - op 
EQUALS 3 ll 
STRING = 人 
| Na 
Name : NameStartChar NameChar* ， 
S [ \t\r\n] -> Skip ; 
fragment 
HEXDIGIT [a-fA-FO-9] ; 
fragment 
DIGIT [0-9] ; 
fragment 
NameChar : NameStartChar 
| ‘as* | 2 | DIGIT 
| “1U60087 
| '\vu0300',.'\u036F' 
| '\vu203F',.'\u2040" 
fragment 
NameStartChar 
: [:a-zA-Z] 
| '\vu2070',.'\u218F' 
| '\u2C00'..'\u2FEPF' 
| "'\u3001°',.'\uD7FF' 
| '\uF900".,.'\uFDCPF' 
| '\uFDFO'..'\uFFFD' 


其 中 ， 开 头 三 条 规则 匹配 标签 的 结束 序列 ， 这 就 是 popMode 词 法 指令 的 
用 法 。 我 们 不 需要 指定 目标 模式 ， 因 为 之 前 的 模式 位 于 栈 顶 ， 所 以 这 
些 规则 只 需要 “弹出 * 即 可 。STRING 规 则 对 应 规范 中 的 AttValue， 唯 一 


的 区 别 在 于 STRING 不 需要 指定 字符 哩 中 的 实体 。 我 们 不 关心 字符 串 的 
内 容 ， 所 以 没有 必要 仔细 匹配 每 个 细 证 。 我 们 只 需 按照 规范 的 要 求 ， 
确 你 字符 串 中 不 出 现 < 和 引号 即 可 。 


有 了 词法 语法 和 文法 语法 后 ， 我 们 就 可 以 进行 构建 和 测试 了 。 
3. 测 斌 我 们 的 XML 语 法 


和 之 前 一 样 ， 我 们 需要 对 这 两 个 语法 运行 ANTLR， 不 过 ， 需 要 先 处 理 
词法 分 析 器 ， 因 为 语法 分 析 器 依赖 XMLLexer.g4 生 成 的 词法 符号 类 型 。 


$ antLr4 XMLLexer.g4 
$ antLr4 XMLParser.g4 
$ javac XML*# .java 


下 面 是 样 例 XML 输 入 文件 : 


lexmagic/XML-inputs/entity.xml 

<!-- a comment 

- -> 

<root><!-- comment --><message>if salary ALt; 1000</message> 
&apos; <a>hi</a> <foo/> 

</root> 


使 用 grun 生 成 语法 分 析 树 : 


$ grun XML document -gui XML-inputs/entity.xml 


如 图 12-7 所 示 生 成 的 语法 分 析 树 显示 ， 我 们 的 语法 分 析 帮 正确 地 处 理 了 
注释 、 实 体 、 标 丛 和 文本 。 


document 


element misc 


< root > content </ root > \n 


<L- comment --> element chardata reference chardata element chardata element chardata 
， 一 一 一 一 NO | 人 Ns | | 
< message > content < / message > Nm &apos; <a> content </a> <foo/ Nm 
chardata reference chardata chardata 
if salary &lt; 1000 hi 


图 12-7 正确 处 理 注释 、 实 体 、 标 多 和 文本 的 语法 分 析 树 


接 下 来 ， 我 们 需要 确保 我 们 的 语法 分 析 器 能 够 正确 处 理 <? xml...? > 和 
其 他 的 处 理 指令 标签 。 下 面 是 样 例 输入 文件 : 


lexmagic/XML-inputs/cat.xml 

<?xml version="1.0" encoding="UTF-8"?> 
<?do not care?> 

<CATALOG> 

<PLANT id="45">0rchid</PLANT> 
</CATALOG> 


可 以 用 以 下 指令 生成 语法 分 析 树 


$ grun XML document -ps /tmp/t.ps XML-inputs/cat.xml 


如 图 12-8 所 示 语 法 分 析 树 显示 ， 输 送 给 语法 分 析 右 的 XML 声 明 标 签 已 


被 正确 分 片 ， 而 <? do not care? > 以 一 个 PI 块 的 形式 出 现 。 


INSIDE 模 式 下 的 大 多 数 词 法 规则 都 使 用 了 有 效 的 Unicode 码 点 ， 因 而 能 
够 正确 地 匹配 标签 名 。 这 人 允许 我 们 识别 国际 化 的 XML 文 件 一 一 例如 ， 


日 语 的 标签 。 在 我 们 的 语法 分 析 器 中 运行 样 例文 件 weekly-euc-jp.xm] 需 
要 为 grun 正 确 地 设置 日 语 编码 选项 。 


$ grun XML document -gui -encoding euc-jp XML-inputs/weekly-euc-jp.xml 


document 
prolog element misc 
a E Sa se Se = a 2 /1 SEE 2 | 
<?xml attribute attribute ?> misc misc misc < CATALOG > content < / CATALOG > \n 
version = "1.0" encoding = "UTF-8" Nm <?donotcare?> Nm chardata element chardata 


\n < PLANT attribute > content / PLANT > Nm 


id = "45" chardata 


Orchid 
图 12-8 XML 声明 标签 被 正确 分 乒 的 语法 分 析 树 
如 图 12-9 所 示 ， 它 用 一 个 大 对 话 框 显示 了 生成 的 结果 。 
document 
element 
< 氏 名 > content < / 氏 名 > 
element chardata element chardata 
content < / 氏 > NAn… < 名 > content < / 名 > \rMn: 
Ww re BT element 
山田 太郎 N\A < 业务 名 > So < / 业务 名 > 
chardata 


XML 工 元 了 夕 一 四 作成 


图 12-9 一 个 对 话 框 窗口 


本 章 编 写 的 XML 语 法 用 实例 告诉 我 们 ， 词 法 分 析 器 常常 具有 相当 的 复 
杂 度 。 相 比 之 下 ， 语 法 分 析 顺 通常 大 而 简单 。 当 一 门 语言 难以 识别 
时 ， 通 常 是 由 于 难以 将 字符 组 合成 词法 符号 。 这 种 情况 的 出 现 ， 一 方 
面 是 因为 词法 分 析 需 需要 语义 上 下 文 来 进行 决策 ， 另 一 方面 是 因为 输 
入 文件 中 存在 多 个 这 循 不 同 词法 规则 的 区 域 。 


本 章 篇 幅 较 长 ， 我 们 探讨 了 许多 方法 ， 希 望 你 在 过 到 识别 过 程 中 的 难 
题 时 将 它们 当 作 工具 书 使 用 。 上 首先， 我们 学 习 了 如 何 将 不 同 的 词法 符 
号 送 入 不 同 的 通道 ， 这 样 ， 我 们 吏 可 以 忽略 但 不 丢弃 类 似 广 释 和 衬 日 
字符 的 关键 词 法 符号 。 之 后 ， 我 们 研究 了 一 些 上 下 文 相 关 的 词法 问 
古 ， 例 如 天 手 的 “天 键 子 作为 标识 从 ”问题 。 接 下 来 ， 我 们 利用 词法 模 
式 将 输入 文件 的 不 同 区 域 分 别 进行 词法 符号 化 ， 即 将 海洋 部 分 和 孤岛 
部 分 区 分 开 。 最 后 ， 我 们 使 用 词法 模式 完成 了 一 个 准确 的 XML 词法 分 
析 夫 。 


现在 ， 我 们 对 ANTLR 用 法 的 理解 已 经 相当 深刻 。 本 书 的 下 一 个 部 分 是 
参考 章 和 ， 它 填补 了 之 前 的 行文 中 ， 出 于 连贯 性 目的 而 遗漏 的 一 些 细 


党 


二 


本 书 由 “ePUBw.COM” 整 理 ，ePUBw.COM 提供 
最 新 最 全 的 优质 电子 书 下 载 ! ! ! 


第 四 部 分 ANTLR 参 考 文档 


本 书 的 前 三 部 分 是 对 ANTLR 使 用 的 指导 ， 第 四 部 分 主要 是 参考 文档 。 
我 们 会 首先 总 结 运 行 时 API， 然 后 研究 ANTLR 对 左 着 归 规 则 的 处 理 。 
最 后 ， 我 们 会 看 到 庞大 的 索引 章节 。 


第 13 章 探究 运行 时 API 


本 章 总 结 了 ANTLR 的 运行 时 API， 虽 在 帮助 读者 上 手 ANTLR 运 行 库 。 
它 详细 讲解 了 面向 开发 者 的 类 ， 而 这 并 非 是 复述 Javadoc 中 的 细节 。 请 
参阅 类 注释 或 方法 注释 ， 以 了 解 其 详细 用 法 。 


13.1 包 结构 概览 


ANTLR 运 行 时 由 六 个 包 组 成 ， 其 中 ， 主 要 的 包 org.antlr.v4.runtime 中 的 
大 多 数 类 是 面向 应 用 程序 的 。 在 本 书 中 ， 最 常用 到 的 是 那些 用 于 启动 
语法 分 析 器 分 析 输 入 文本 的 类 。 下 列 代码 片段 与 一 份 名 为 X.g 的 语法 协 
同 工 作 ， 其 中 有 一 个 名 为 MyListener 的 语法 分 析 树 监听 器 ， 它 实现 了 


XListener: 


XLexer lexer = new XLexer(input); 

CommonTokenStream tokens = new CommonTokenStream(lexer); 
XParser parser = new XParser(tokens ) ; 

ParseTree tree = parser.XstartRule(); 


ParseTreeWalker walker = new ParseTreeWalker(); 


MyListener listener = new MyListener(parser); 
walker.walk(listener, tree); 


我 们 第 一 次 接触 它 是 在 3.3 证 中 。 


org.antlr.v4.runtime ”该 包 包 含 了 最 常用 的 类 和 接口 ， 例 如 与 输入 流 、 
字符 和 词法 符号 缓冲 区 、 错 误 处 理 、 词 法 符号 构建 、 词 法 分 析 和 语法 
分 析 相 天 的 类 体系 结构 。 


org.antlr.v4.runtime.atn ”该 包 在 ANTLR 内 部 用 于 自 适 应 LL (*) 词法 分 
析 和 语法 分 析 策 略 。 包 名 中 的 atn 是 增强 转移 网 络 (argumented 
transition network) 的 缩写 ， 它 是 一 种 能 够 表示 语法 的 状态 机 ， 其 中 网 
络 的 边 代 表 语 法 元 素 。 在 词法 分 析 和 语法 分 析 的 过 程 中 ，ANTLR 沿 
ATN 移 动 ， 并 基于 前 瞻 符 号 作出 预测 。 


org.antlr.v4.runtime.dfa ”使 用 ATN 进 行 决 策 的 代价 很 高 ， 因 此 ANTLR 在 
运行 过 程 中 将 预测 结果 缓存 在 了 人 确定 有 限 状 态 目 动机 (Deterministic 
Finite Automata，DFA) 中 。 该 包 包 含 了 所 有 的 DFA 实 现 类 。 


org.antlr.v4.runtime.misc ”该 包 包 含 各 种 各 样 的 数据 结构 ， 以 及 最 常用 
的 TestRig 类 一 一 我 们 已 经 在 之 前 章节 中 通过 grun 命 令 使 用 过 它 了 。 


org.antlr.v4.runtime.tree ”默认 情况 下 ，ANTLR 目 动 生 成 的 语法 分 析 峰 
会 建立 语法 分 析 树 ， 该 包 包含 实现 此 功能 所 需 的 全 部 类 和 接口 。 这 些 
类 和 接口 中 还 包括 基本 的 语法 分 析 树 监 昕 絮 、 亿 历 絮 以 及 访问 右 机 
制 。 


org.antlr.v4.runtime.tree.gui ANTLR 目 带 一 个 基本 的 语法 分 析 树 查看 
器 ， 可 通过 inspect () 方法 访问 之 。 你 也 可 以 通过 save () 方法 将 语法 


分 析 树 保存 为 PostScript 格 式 。TestRig 的 “-gui" 选 项 亦 会 启动 该 查看 器 。 
剩 下 的 章节 将 对 按 功 能 分 组 的 运行 时 API 进 行 描述 。 
13.2 ”识别 器 


ANTLR 目 动 生成 的 词法 分 析 右 和 语法 分 析 需 是 Lexer 和 Parser 的 子 类 。 
Recognizer 基 类 抽象 了 识别 字符 序列 或 词法 符号 序列 中 语言 结构 的 概 
念 。 识 别 器 (Recognizer) 的 数据 来 源 是 IntStream， 我 们 稍 后 会 看 到 。 
图 13-1 所 示 是 相关 的 实现 和 继承 关系 (接口 用 斜体 标示 ) 。 


TokenSource 


Recognizer 


图 13-1 相关 的 实现 和 继承 关系 


Lexer 实 现 了 接口 TokenSource， 后 者 包 仿 两 个 核心 的 词法 分 析 妖 方法 : 
nextToken () 、getLine () 和 getCharPositionInLine () 。 按 照 一 份 
ANTLR 语 法 实现 一 个 词法 分 析 屁 并 不 十 分 困难 。 让 我 们 编写 一 个 词法 
分 析 升 ， 用 于 将 包含 标识 符 和 整数 鸭 下 列 输入 文件 进行 词法 符号 化 : 


api/Simple-input 
a 343x 
abc 9 !; 


手工 编写 的 词法 分 析 器 的 核心 代码 如 下 : 


api/SimpleLexer.java 
@Override 
public Token nextToken() { 
while (true) { 
if ( c==(char)CharStream.EOF ) return createToken {Token .EOF):; 
while ( Character.iswhitespace(c) ) consume(); // 丢弃 空白 字符 
startCharIndex = input.index!(); 
startLine = getLine( ) ; 
startCharPositionInLine = getCharPositionInLine( ) ; 
if ( c==';' ) 1 
consume{); 
return createToken(SEMI) ; 
} 
else if ( c>='0' && c<='9' ) { 
while ( c>='0' && c<='9' ) consumel ) ; 
return createToken(INT); 
} 
else if ( c>='9' && c<='z' ) { // 非常 简单 的 ID 
while ( c>='a' && c<='2' ) consumel ) ; 
return createToken(ID); 
} 
// error consume and try again 
consume(); 


} 


protected Token createToken(int ttype) { 
String text = null; // 我 们 使 用 输入 字符 序列 的 start. . stop 子 序列 
Pair<TokenSource, CharStream> source = 
new Pair<TokenSource, CharStream>(this, input); 
return factory.create(source, ttype, text, Token.DEFAULT CHANNEL, 
startCharIndex, input.index()-1, 
startLine, startCharPositionInLine); 


} 
protected void consume() { 
if ( c=='\n' ) { 
line++; // Ar 是 一 个 普通 字符 ，\n 会 使 得 Line++ 
charPositionInLine = 0; 
} 


if ( c!=(char)CharStream.EOF ) input.consume{(); 
c= (char)input.LA(1); 
charPositionInLine++; 


如 果 使 用 手工 编写 的 词法 分 析 絮 ， 我 们 就 需要 一 种 方法 ， 使 之 能 和 
ANTLR 语 法 共享 词法 符号 名 。 为 了 让 ANTLR 自 动 地 生成 语法 分 析 器 代 


码 ， 我 们 需要 令 其 知晓 词法 符号 的 类 型 整数 值 ， 这 些 值 是 在 词法 分 析 
亏 的 源 代 码 中 定义 的 。 这 吏 是 .tokens 文 件 的 作用 。 


api/SimpleLexer.tokens 
ID=1 

INT=2 

SEMI=3 


下 面 是 一 份 读 取 上 述 词法 符号 定义 的 稍 单 语法 : 


api/SimpleParser.g4 

parser grammar SimpleParser; 

options { 
// 从 SimpLeLexer.tokens 获取 词法 符号 类 型 don't name it 
// 不 要 将 它 命 名 为 SimpLeParser.tokens， 因 为 ANTLR 会 覆盖 它 
tokenVocab=SimpleLexer.; 


} 


s:( ID | INT )* SEMI ; 


下 面 是 构建 和 测试 的 步骤 : 


$ antLr4 SimpleParser.g4 

$ javac Simple*.java TestSimple.java 
$ java TestSimple Simple-input 

(sa 343 x abc 9 ;) 


( 注 : 参见 


https://media.pragprog.com/titles/tpantlr2/code/api/TestSimple.java ° 
译 者 注 ) 


13.3 ”输入 字符 流 和 词法 符号 流 


在 最 高 层次 的 抽象 中 ， 词 法 分 析 器 和 语法 分 析 器 的 主要 工作 都 是 分 析 
整数 输入 流 。 词 法 分 析 絮 处 理 字 符 〈 短 整数 型 ) ， 语 法 分 析 絮 人 处理 词 
法 符号 类 型 (整数 型 ) 。 这 就 是 ANTLR 有 关 输 入 流 的 类 继承 体系 名 为 
IntStream 的 原因 。 图 13-2 为 这 些 类 的 继承 体系 。 


UnbufferedCharStream 


CommonTokenStream 


IntStream 


ANTLRFileStream 


图 13-2 ANTLR 有 天 输入 流 的 类 继承 体系 


IntStream 接 口 定 义 了 流 的 大 部 分 关键 操作 ， 包 括 消 费 符号 以 及 获取 前 
瞻 符 号 的 方法 ， 即 consume () 和 LA () 。 由 于 ANTLR 中 的 识别 器 需 
要 向 前 扫描 并 倒 回 原先 的 位 置 ，IntStream 还 定义 了 mark () 和 seek () 
方法 。 


CharStream 和 TokenStream 子 接口 增加 了 从 流 中 提取 文本 的 方法 。 实 现 
它们 的 类 通常 会 一 次 读 取 全 部 输入 并 将 它们 缓存 起 来 。 这 种 方案 使 得 
类 的 编写 和 访问 输入 更 为 容易 ， 同 时 也 更 符合 常见 情况 。 如 果 输 入 过 
于 庞大 无 法 缓存 ， 或 者 是 无 限 长 的 例如 通过 一 个 套 接 字 ) ， 你 可 以 
使 用 UnbufferedCharStream 和 UnbufferedTokenStream 。 


进行 语法 分 析 的 代码 通常 是 :创建 一 个 输入 流 ， 将 一 个 词法 分 析 器 指 
定 给 该 流 ， 创 建 一 个 词法 符号 流 并 将 其 指定 给 该 词法 分 析 器 ， 最 后 创 
建 一 个 语法 分 析 器 并 将 其 指定 给 该 词法 符号 流 。 


ANTLRInputStream input = new ANTLRFileStream("an-input-file"); 
//ANTLRINnputStream Input = new ANTLRInputStream(System.in); // 或 者 从 标准 输入 读 取 
SimpleLexer Lexer = new SimpleLexer(input); 

CommonTokenStream tokens = new CommonTokenStream( lexer); 

SimpleParser parser = new SimpleParser(tokens); 

ParseTree t = parser.s(); 


13.4 词法 符号 和 词法 符号 工厂 


词法 分 析 右 将 字符 流 分 解 成 耕 干 词法 符号 对 象 ， 语 法 分 析 右 则 竹 试 将 
语法 结构 应 用 于 生成 的 词法 符号 流 之 上 。 通 稼 ， 我 们 认为 词法 符号 被 
词法 分 析 嚣 创建 之 后 就 不 再 改变 ， 然 而 ， 有 些 时 候 ， 我 们 需要 在 创建 
词法 符号 之 后 修改 它们 的 某 些 字段 。 例 如 ， 词 法 符号 流 在 工作 时 会 设 
置 其 中 的 词法 符号 的 索引 值 。 为 提供 对 这 些 修改 操作 的 文 择 ，ANTLR 
使 用 WritableToken 接 口 ， 它 是 一 种 市 setter 方 法 的 词法 人 特写。 最 后 ,我 
们 得 到 了 CommonToken， 它 十 一 个 全 功能 的 词法 符号 类 ， 图 13-3 所 示 
为 Token 的 类 继承 体系 。 


图 13-3 ”Token 的 类 继承 体系 


通常 情况 下 ， 我 们 无 需 实现 目 定 义 类 型 的 词法 符号 。 下 面 的 示例 代码 
展示 了 一 个 特殊 的 Token 实 现 ， 它 为 每 个 词法 符号 添加 了 一 个 字段 : 


api/MyToken.java 

import org.antlr.v4.runtime.CharStream; 
import org.antlr.v4.runtime.CommonToken; 
import org.antlr.v4.runtime.TokenSource; 
import org.antlr.v4.runtime.misc,.Pair; 


/** 一 个 用 于 追踪 并 保存 TokenSource 名 字 的 Token 实现 类 */ 
public class MyToken extends CommonToken { 
public String srcName; 


public MyToken(int type, String text) { 
super(type, text); 
} 


public MyToken(Pair<TokenSource, CharStream> source, int type, 
int channel, int start, int stop) 


{ 
super(source, type, channel, start, stop); 
@Override 


public String toString() { 
String t = super.toString(); 
return srcName +";"+t; 


为 了 让 词法 分 析 器 生成 这 样 的 特殊 词法 符号 ， 我 们 需要 新 建 一 个 工厂 
对 象 ， 将 其 传 给 词法 分 析 器 。 我 们 还 需要 通知 语法 分 析 器 ， 使 得 它 的 
错误 处 理 句 能 够 在 必要 时 候 生 成 正确 类 型 的 词法 符号 ， 图 13-4 所 示 为 工 
三 类 TokenFactory 的 类 继承 体系 。 


TokenFactory 


图 13-4 生成 Token 对 象 的 TokenFactory 工 厂 类 及 其 实现 


下 面 整 


CommonTokenFactory 


是 能 够 生成 MyToken 对 象 的 工厂 类: 


api/MyTokenFactory.java 


import 
import 
import 
import 
import 


org.antLr， 
org.antlr. 
org.antlr. 
org.antlr. 
org.antlr. 


v4. 
V4. 
v4. 
v4. 
v4. 


runtime 
runtime 
runtime 
runtime 
runtime 


.CharStreanm; 
.TokenFactory ; 
.TokenSource; 
.misc.Interval ; 
.misc.Pair; 


/** 工厂 类 TokenFactory 创建 MyToken 对 象 */ 
public class MyTokenFactory implements TokenFactory<MyToken> { 
CharStream input; 


public MyTokenFactory(CharStream input) { this.input = input; } 
@Override 
public MyToken create(int type, String text) { 
return new MyToken(type, text), 


} 


GOverride 
public MyToken create(Pair<TokenSource, CharStream> source, int type, 
String text, 

int channel, int start, int stop, int line, 

int charPositionInLine) 


MyToken t = new MyToken(source, type, channel, start, stop); 
t,setLine(line); 
t,SetCharPositionInLine(charPositionInLine) ; 


t,srcName 
return 七; 


input .getSourceName(); 


下 列 的 示例 代码 展示 了 同 词 法 分 析 句 和 语法 分 析 如 注册 工厂 类 的 过 


程 : 


api/Test5impleMyToken,java 
ANTLRInputStream :input = new ANTLRFileStream(args[0]); 
SimpleLexer lexer = new SimpleLexer(input); 
> MyTokenFactory factory = new MyTokenFactory(input); 
> lexer.setTokenFactory(factory); 
CommonTokenStream tokens = new CommonTokensStream(Lexer) ; 


// 打印 全 部 词法 符号 

tokens .fiLL() ; 

List<Token> alltokens = tokens.getTokens(); 

for (Token t : alltokens) System.out.println(t.toString()); 


// 开始 语法 分 析 

SimpleParser parser = new SimpleParser(tokens); 
> parser.setTokenFactory (factory); 

ParseTree 七 = parser.s(); 

System,out,printtLn(t,toSstringTree(parser) ) ; 


它 复 用 了 先前 SimpleParser.g4 的 语法 。 下 面 是 构建 和 测试 的 步骤 : 


$ antLr4 SimpleParser.g4 

$ javac SimpLe* .java MyToken*.java TestSimpLeMyToken.java 
$ java TestSimpleMyToken Simple-input 
Simple-input:[@0,0:0='a',<1>,1:0] 
Simple-input:[@1,2:4='343' ,<2>,1:2] 
Simple-input:[@2,5:5='x',<1>,1:5] 
Simple-input:[@3,7:9='abc',<1>,2:1] 
Simple-input:[@4,11:11='9',<2>,2:5] 
Simple-input:[@5,13:13=';',<3>,2:7] 
Simple-input:[@6,15:14='<EOF>' ,<-1>,3:1] 
(sa 343 x abc 9 ;) 


MyToken 类 中 的 toString () 方法 在 原先 的 词法 符号 输出 之 前 增加 了 一 


个 Simple-input: 前 级 。 


13.5 ”语法 分 析 树 


Tree 接口 定义 了 一 棵 包含 数据 和 子 世 点 的 树 。SyntaxTree 是 一 种 知道 如 
何 将 TokenStream 中 的 词法 符号 组 装 成 树 节 点 的 树 。 更 详细 地 ， 


ParseTree 代 表 语 法 分 析 树 中 的 一 个 和 点 。 它 能 够 返回 目 己 的 所 有 后 代 
中 叶子 节点 包含 的 文本 。 我 们 已 经 在 2.4 太 中 看 到 了 语法 分 析 树 的 例 
子 ， 以 及 不 同类 型 的 树 节 点 对 应 的 类 。ParseTree 也 在 ParseTreeVisitor 中 
提供 了 常用 的 访问 器 模式 的 双 分 派 方法 accept () ， 详 见 2.5 节 。 图 13-5 
所 示 为 Tree 接口 的 类 继承 体系 。 


RuleNode 和 TerminalNode 对 应 着 子 树 的 根 万 点 和 叶子 万 点 。ANTLR 在 
单词 法 符号 补 全 的 恢复 过 程 中 会 创建 ErrorNodeImpl 节 点 ( 详 见 9.3 市 中 
的 “从 不 匹配 的 词法 符号 中 恢复 ”部 分 ) 


RuleNode RuleContext ParserRuleContext 


TerminalNode ee 


TerminalNodelmpl 


ErrorNodelmpl 


图 13-5 ”Tree 接口 的 类 继承 体系 


RuleContext 对 象 记 录 了 一 条 规则 的 调用 过 程 ， 通 过 getParent () 链 ， 我 
们 可 以 获得 调用 的 上 下 文 。ParserRuleContext 包 含 一 个 字段 ， 用 于 在 语 
法 分 析 絮 建立 狐 子 树 时 追踪 其 子 节点 。 它 们 是 树 节 点 的 主要 实现 类 ， 
ANTLR 基 于 它们 ， 为 你 的 语法 中 的 每 条 规则 生成 一 个 特殊 的 子 类 ， 你 
可 以 仔细 查看 它们 。 


13.6 ”错误 监听 器 和 监听 策略 


与 ANTLR 的 语法 错误 处 理 机 制 相关 的 关键 接口 有 两 个 : 
ANTLRErrorListener 和 ANTLRErrorStrategy。 我 们 已 经 在 9.2 节 中 学 习 了 
前 者 ， 在 9.5 世 中 学 习 了 后 者 。 监 听 器 允许 我 们 修改 错误 消息 和 输出 的 
位 置 。 我 们 可 以 通过 实现 不 同 的 策略 ， 来 改变 语法 分 析 器 应 对 错误 的 
方式 。 图 13-6 所 示 为 二 者 的 类 继承 体系 。 


ConsoleErrorListener 
DiagnosticErrorListener 


BaseErrorListener 
ProxyErrorListener 


ANTLRErrorStrategy DefaultErrorStrategy BailErrorStrategy 


ANTLRErrorListener 


图 13-6 ANTLRErrorListener 和 ANTLRErrorStrategy 的 类 继承 体系 


ANTLR 根 据 错 误 的 具体 类 型 ， 抛 出 特定 的 RecognitionException。 需 要 
注意 的 是 ， 它 们 是 不 受 检 的 运行 时 异常 (unchecked runtime 

exception) ， 所 以 你 无 须 在 方法 上 书写 大 量 的 throws 语 句 ， 图 13-7 所 示 
为 RecognitionException 的 类 继承 体系 。 


java.lang.RuntimeException RecognitionException 


图 13-7 RecognitionException 的 类 继承 体系 


13.7 ”提高 语法 分 析 器 的 速度 


ANTLR 4 的 自 适 应 语法 分 析 策 略 功能 比 ANTLR 3 更 加 强大 ， 不 过 这 是 
以 少量 的 性 能 损失 为 代价 的 。 如 果 你 需要 尽 可 能 快 的 速度 和 尽 可 能 少 
的 内 存 占用 ， 你 可 以 使 用 两 步 语法 分 析 策 略 。 第 一 步 使 用 功能 稍 弱 的 
语法 分 析 策 略 一 一 SLL (*) 一 一 在 大 多 数 情况 下 它 已 经 足够 了 ( 它 和 
ANTLR 3 的 策略 相似 ， 只 是 不 需要 回溯 ) 。 如 果 第 一 步 的 语法 分 析 失 
败 ， 那 么 就 必须 使 用 全 功能 的 LL (*) 语法 分 析 。 这 是 因为 ， 在 第 一 步 
失败 后 ， 我 们 无 法 知道 原因 究竟 是 真正 的 语法 错误 ， 还 是 SLL (*) 的 
功能 不 够 强大 。 由 于 能 够 通过 SLL (*) 的 输入 一 定 能 够 通过 全 功能 的 
LL (*) ， 所 以 一 旦 第 一 步 成 功 ， 就 无 须 使 用 更 昂贵 的 策略 。 


parser.getInterpreter().setSLL(true); // 尝试 简单 快捷 的 SLL (*) 
// 在 第 一 次 尝试 过 程 中 ， 无 需 错误 消息 和 错误 恢复 
parser.removeErrorListeners(); 
parser.setErrorHandler(new BailErrorStrategy()); 
try { 

parser,.startRule(); 

// 如 果 抵达 此 处 ， 证 明 没 有 语法 错误 ，SLL(*) 就 够 了 

// 无 需 使 用 全 功能 的 LL (*) 


} 
catch (RuntimeException ex) { 
If (ex.getClass() == RuntimeException.class && 
ex.getCause() instanceof RecognitionException) 
{ 
// BailErrorStrategy 会 将 RecognitionExceptions 封装 在 
// RuntimeException 中 ， 所 以 这 里 需要 检查 是 不 是 
ji 真正 的 RecognitionException 
tokens. reset(); // 回 滚 输 入 流 
// 重新 使 用 标准 的 错误 监听 器 和 错误 处 理 器 
parser.addErrorListener(ConsoleErrorListener.INSTANCE); 
parser.setErrorHandler(new DefaultErrorStrategy()); 
parser.getInterpreter().setSLL(false); // 尝试 全 功能 的 LL(*) 
parser.startRule(); 


> 


如 采 第 二 步 失败 ， 那 就 意味 着 一 个 真正 的 语法 错误 。 
13.8 ”无 缓冲 的 字符 流 和 词法 符号 流 


因为 ANTLR 的 识别 器 在 默认 情况 下 会 将 输入 的 完整 字符 流 和 全 部 词法 
符号 放 入 缓冲 区 ， 所 以 它 无 法 处 理 大 小 超过 内 存 的 文件 ， 也 无 法 处 理 
类 似 套 接 字 (socket) 连接 之 类 的 无 限 输 入 流 。 为 解决 此 问题 ， 你 可 以 
使 用 字符 流 和 词法 符号 流 的 无 缓冲 版 本 : UnbufferedCharStream 和 
UnbufferedTokenStream， 它 们 使 用 一 个 滑动 窗口 来 处 理 流 。 


为 展示 二 者 的 实际 应 用 ， 下 列 语法 是 6.1 广 中 CSV 语 法 的 变 体 ， 它 计算 
一 个 文件 中 两 列 浮 点 数 的 和 |: 


api/CSV.g4 

/** 每 行 是 两 个 实数 : 
0.9962269825793676, 0.9224608616182103 
0.91673278673353, -0.6374985722530822 
0.9841464019977713, 0.03539546030010776 


本 四 
grammar CSV; 


Gmembers { 
double x，y; // 在 这 两 个 字段 中 保存 列 的 和 
} 
file: row+ {System.out.printf("%f, %f\n", x, y);}.; 
row : a=field ',' b=field '\r'? '\n' 
{ 
x += Double.value0f($a.start.getText()); 


y += Double.value0f ($b.start.getText()); 
} 


field 
:TEXT 


了 


TEXT 站 总 [AND s 


如 采 你 需要 的 只 是 每 一 列 的 和 ， 你 束 应 该 在 内 存 中 只 保留 一 个 或 两 个 
词法 符号 用 于 记录 结果 。 欲 关闭 ANTLR 的 缓冲 功能 ， 需 要 完成 三 件 事 
情 。 百 和 完 ， 使 用 无 绥 冲 的 流 代 礁 第 见 的 ANTLFileStream 和 

CommonTokenStream。 其 次 ， 传 给 词法 分 析 器 一 个 词法 符号 工厂 ， 将 


输入 流 中 的 字符 找 贝 到 生成 的 词法 符号 中 去 。 否 则 ， 词 法 符号 的 


字符 流 ( 详 见 2.4 节 
中 的 图 ， 它 显示 了 词法 符号 和 字符 流 的 关系 ) 。 最 后 ， 阻 止 语法 分 析 
器 建立 语法 分 析 树 。 下 面 的 测试 代码 将 关键 行 予以 高 亮 显 示 : 


api/TestCSV.java 


import 
import 
import 
import 
import 
import 
import 


import 
import 
public 


public static void main(String[] args) throws Exception 


Y YY vv 


org. 
org. 
org. 


org 


org. 
org. 
org. 


antlr. 
antlr. 
antlr. 
二 本 js 
antlr. 
antlr. 
antlr. 


V4， 
V4， 
V4， 
V4， 
V4， 
V4， 
V4， 


runtime. 
runtime ， 
runtime. 
runtime. 
runtime. 
runtime. 
runtime. 


CharStream; 
CommonToken; 
CommonTokenFactory; 
Token; 

TokenStream; 
UnbufferedCharStream; 
UnbufferedTokenStream; 


java.io.FileInputStream; 
java.io.InputStream; 
class TestCSV { 


String inputFile = 
if ( args.length>0 ) inputFile = args[0]; 
InputStream is = System,in; 

if ( inputFile!=null ) { 

new FileInputStream(inputFile), 
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is = 


CharStream input = 
CSVLexer lex = new CSVLexer(input); 

// 将 滑动 缓冲 区 中 的 文本 拷贝 到 词法 符号 
lex.setTokenFactory(new CommonTokenFactory(true) ) ; 
TokenStream tokens 
CSVParser parser = 
parser.setBuildParseTree(false); 
parser.filel(); 


a 


nts 


new UnbufferedCharStream(is); 


= new UnbufferedTokenStream<CommonToken> (lex); 
new CSVParser(tokens); 


下 面 是 使 用 一 个 1000 行 的 样 例文 件 进行 构建 和 测试 的 步骤 : 


$ antLr4 CSV.g4 


$ javac TestCSV.java CSV*.java 


$ wc sample.csyv 


1000 


2000 


39933 sample.csv # 1000 行 ，2000 个 单词 ，39933 个 字符 
$ java TestCSV sample.csv 
1000.542053，1005.587845 


为 验证 它 是 无 缓冲 的 ， 我 使 用 了 一 个 包含 780 万 行 记 录 、310M 的 CSV 文 
件 进 行 测试 ， 同 时 将 JYVM 的 RAM 限 制 为 70M 大 小 。 


$ wc big.csv 

7800000 15600000 310959090 big.csv # 7800000 lines, ... 
$ time java -Xmx1l0OM TestCSV big.csv 

11695395.953785, 7747174.349207 


real 0m43.415s # 计算 耗 时 
user Om51.186s 
sys 0m6 .195s 


当 效率 是 首要 目标 时 ， 无 缓冲 流 是 非常 有 用 的 〈 你 可 以 将 它们 与 先前 
章 市 中 的 各 种 技术 联合 使 用 ) 。 使 用 它们 的 缺点 是 你 需要 手工 处 理 与 
缓冲 区 相关 的 事情 。 例 如 ， 你 不 能 在 规则 的 内 藤 动 作 中 使 用 $text， 
为 它们 是 从 输入 流 中 获取 文本 的 。 


13.9 修改 ANTLR 的 代码 生成 机 制 


ANTLR 使 用 两 种 辅助 工具 来 生成 代码 : 一 组 StringTemplate 文 件 (包含 
模板 ) 以 及 一 个 称 为 LanguageTarget 的 Target 子 类 ， 其 中 Language 是 语 
法 的 language 选 项 。 对 应 的 StringTemplate 组 文件 是 
org/antlr/v4/tool/templates/codegen/Language.stg。 例 如 ， 若 希望 修改 Java 
的 代码 生成 模板 ， 你 需要 做 的 只 是 拷贝 并 修改 
org/antlr/v4/tool/templates/codegen/Java.stg， 然 后 ， 将 它 放 在 ANTLR 的 
jar 包 之 前 的 CLASSPATH 中 。ANTLR 使 用 资源 加 载 器 (resource 

loader) 来 获取 这 些 模板 ， 这 样 ， 它 就 能 首先 找到 你 修改 后 的 版 本 。 


模板 仅仅 用 于 生成 特定 语法 对 应 的 代码 ， 而 大 多 数 的 和 常用 功能 位 于 运 
行 库 中 。 所 以 ，Lexer 和 Parser 等 都 是 运行 库 的 一 部 分 ， 而 非 由 ANTLR 
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欲 增 加 对 L 语 言 的 支持 ， 你 需要 首先 编写 LTarget 类 ， 然 后 将 其 放置 于 
org.antlr.v4.codegen 包 中 ， 并 让 它 在 CLASSPATH 中 位 于 ANTLR 的 jar 包 
之 前 。 不 过 ， 只 有 在 需要 修改 Target 中 的 基础 功能 时 ， 你 才 需 要 如 此 
做 。 如 果 没 有 找到 LTarget 类 ，ANTLR 就 使 用 Target 作 为 基础 类 (这 也 
是 ANTLR 处 理 Java 语 言 的 方式 ) 


第 14 章 ” 移 除 直接 左 递归 


在 5.4 节 中 我 们 看 到 ， 用 自然 方式 处 理 算 术 表 达 式 是 具有 歧义 性 的 。 例 
如 ， 下 列 expr 可 以 将 1+2*3 解 释 为 (1+2) *3 或 者 1+ (2*3) 。 通 过 优先 
选择 位 置 靠 前 的 备 选 分 支 ，ANTLR 优 雅 地 解决 了 歧义 问题 。 


left-recursion-removal/Expr.g4 


stat: expr ';'; 
expr: expr '*' expr // 优先 级 4 
| expr '+' expr // 优先 级 3 
| INT // 主 表达 式 ( 优先 级 2) 


| ID // 主 表达 式 ( 优先 级 1) 


expr 规 则 仍然 是 左 递归 的 ， 传 统 的 目 顶 向 下 的 语法 (例如 ANTLR 3) 无 
法 处 理 这 样 的 规则 。 在 本 章 中 ， 我 们 会 探究 ANTLR 处 理 左 递归 和 运算 

符 优先 级 的 方式 。 简 单 而 言 ，ANTLR 将 左 递归 替换 成 一 个 (...) *， 它 
会 比较 前 一 个 和 下 一 个 运算 符 的 优先 级 。 


熟悉 这 样 的 规则 变换 是 很 重要 的 ， 因 为 生成 的 代码 反映 的 是 转换 后 的 
规则 ， 而 非 原先 的 规则 。 更 重要 的 是 ， 当 一 份 语法 没有 按照 我 们 的 期 
望 对 运算 符 进行 分 组 和 结合 时 ， 我 们 需要 知道 原因 。 大 多 数 用 户 可 以 
只 阅读 本 章 第 一 节 中 与 有 效 递 归 备 选 分 文 模式 相关 的 内 容 ， 对 实现 细 
节 感 兴趣 的 进 阶 用 户 可 以 继续 阅读 第 二 节 。 


让 我 们 首 移 学 习 ANTLR 和 采取 的 转换 方案 ， 然 后 通过 一 个 例子 来 在 实践 
中 学 习 优 先 级 上 升 (precedence climbing) 算法 。 


14.1 直接 左 递归 备 选 分 支 模 式 


ANTLR 通 过 检查 下 列 四 种 子 表达 式 运 算 模式 来 认定 一 条 规则 为 左 递归 
规则 。 


二 元 expr 规 则 的 某 个 备 选 分 文人 符合 expr op expr 或 者 expr 

(op1llop2|...lopN) expr 的 形式 。op 可 以 是 单一 词法 符号 或 者 多 词法 符号 
构成 的 运算 符 。 例 如 ，Java 语 法 可 能 独立 处 理 尖 括号 ， 而 非 将 <=> 或 >= 
当 作 单 一 词法 符号 。 下 面 的 备 选 分 文 将 比较 运算 符 按 照 同 一 优先 级 处 
理 . 


| expr (Ce 1 一 ! drs 1 一 ! Uy | we" ) expr 


op 可 以 是 对 另外 一 条 规则 的 引用 ， 例 如 ， 我 们 可 能 将 奉 干 个 词法 符号 
提出 来 ， 组 成 一 条 新 的 规则 。 


expr: ... 
| expr compare0ps expr 


compare0ps : ('<' '=" '>' = 


中 
V 
交 


三 元 expr 的 某 个 备 选 分 支 人 符合 expr op1 expr op2 expr 的 形式 。op1 和 
op2 必 须 是 单词 法 符号 引用 。 这 种 模式 的 典型 代表 是 类 C 语 言 
的 “? : ”运算 符 : 


expr: m5: 
| expr '?' expr ':;' expr 


一 元 前 级 ”expr 的 某 条 规则 符合 elements expr 的 形式 。ANTLR 将 任意 
素 后 的 尾 递 归 规 则 引用 视 作 一 元 前 缀 模式 ， 前 提 是 它 不 符合 二 元 模式 
和 三 元 模式 。 下 面 是 两 个 具有 前 绥 运 算 符 的 备 选 分 文 : 


expr: ... 


一 元 后 缀 ”expr 的 某 个 备 选 分 文 符 合 expr elements 形 式 。 和 前 绥 模 式 相 
同 ，ANTLR 将 任意 元 素 前 的 直接 左 递 归 规 则 视 作 一 元 后 弘 模 式 ， 前 提 
征 它 不 符合 二 元 模式 和 三 元 模式 。 下 面 是 两 个 具有 后 绥 运 算 符 的 备 选 
支 : 
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expr: ... 
| expr '.' Identifier 


| expr '.' 'super' '(' exprList? ')' 


其 他 形式 的 备 选 分 文 都 被 作为 主 表达 式 (primary expression) 元 素 处 
理 ， 例 如 标识 符 或 者 整数 ， 也 包括 类 似 ' expr) "的 形式 ， 因 为 它 不 符 
合 上 述 四 种 模式 的 任意 一 种 。 这 是 必要 的 ， 因 为 括号 存在 的 意义 是 将 
其 包含 的 表达 式 当 作 一 个 原子 元 素 处 理 。 这 样 的 “其 他 形式 ” 备 选 分 文 
可 以 以 任意 顺序 出 现 。ANTLR 能 够 正确 地 处 理 它 们 。 除 此 之 外 的 备 选 
分 支 顺序 都 是 需要 特别 注意 的 。 下 面 古 一 些 主 表达 式 备 选 分 文 的 示 
例 : 


| literal 
| Identifier 
| type '.' 'class' 


除非 额外 指定 ，ANTLR 假 设 所 有 的 运算 符 都 是 左 结合 的 。 换 名 话说 ， 
1+2+3 会 被 分 组 为 (1+2) +3。 不 过 ， 某 些 运算 符 是 右 结 合 的 ， 例 如 赋 


值 运 算 符 和 指数 运算 符 ， 我 们 已 经 在 5.4 节 中 见 过 它们 的 处 理 方 式 。 通 
过 assoc 和 选项， 可 以 指定 右 结 合 性 


expr: expr '^'<assoc=right> expr 


| expr '='<assoc=right> expr 


在 下 一 市 中 ， 我 们 将 会 看 到 ANTLR 翻 译 这 些 模 式 的 方法 。 


14.2 左 递归 规则 转换 


如 采 你 打开 ANTLR 命 令 行 的 “-Xlog" 选 项 ， 你 就 可 以 在 日 志文 件 中 看 到 
转换 后 的 左 递 归 规 则 。 下 面 是 在 先前 Exprg4 语 法 中 的 stat 和 expr 规 则 上 
发 生 的 转换 过 程 : 


// 使 用 "antLr4 -Xlog Expr,g4" 查看 转换 后 的 规则 


stat: expr[0] ';' ; // 匹配 包含 优先 级 运算 符 的 表达 式 
pt _p] // _p 是 预期 的 最 低 优先 级 
: (INT // 匹配 主 表达 式 (无 运算 符 的 表达 式 ) 


| ID 

) 

// 匹配 优先 级 大 于 等 于 预期 最 低 值 的 运算 符 

( {4 >= $ p}? '*' expr[5] // * 有 具有 优先 级 4 
| {3 >= $_p}? '+' expr[4] // + 具有 优先 级 3 


党 


0 
我 们 希望 学 习 的 是 这 些 判 定 根 据 运算 符 优先 级 指导 语法 分 析 器 进行 正 


确 分 组 的 方法 。 


关键 在 于 ， 究 竟 是 在 expr 的 当前 调用 中 匹配 下 一 个 运算 符 ， 还 是 令 expr 
的 调用 者 匹配 下 一 个 运算 符 。 (…) * 能 够 匹配 当前 运算 符 和 右 侧 运算 
符 。 例 如 ， 对 于 输入 1+2*3， 该 循环 能 够 严 配 +2 和 *3。 循 环 中 的 判定 能 
够 决定 ， 令 语法 分 析 右 匹配 这 二 者 ， 还 是 放弃 它们 。 如 果 操 作 符 的 优 

先 级 3 低 于 当前 于 表达 式 预 期 的 最 低 优 先 级 _p，{3>=$_p}? 束 会 关闭 这 


这 不 是 带 运 算 符 优先 级 的 语法 分 析 


不 要 将 这 种 机 制 和 你 可 能 在 维基 百科 读 到 的 带 运 算 符 优先 级 的 语法 分 
析 相 混淆 。 带 运算 符 优先 级 的 语法 分 析 无 法 处 理 一 些 特殊 情况 ， 例 如 
具有 两 种 不 同 优先 级 的 负 号 ， 一 种 用 于 取 负 ， 一 种 用 于 二 元 减法 。 它 
也 无 法 处 理 具有 两 条 相 邻 的 规则 的 备 选 分 文 ， 如 expr ops expr。 参考 文 
献 【Compilers: Principles，Techniques，and Tools[ALSU06]】 给 出 了 详 
细 解 释 。 


参数 _p 的 值 总 是 前 一 个 运算 符 的 优 移 级 。_p 从 0 开始 ， 因 为 对 expr 的 非 

递归 调用 会 传递 0， 例 如 stat 会 调用 expr[0]。 为 了 解 实际 情况 中 _p 的 值 ， 
我 们 可 以 查看 基于 转换 后 的 规则 生成 的 语法 分 析 树 (参数 _p 的 值 在 方 
括号 中 显示 ) 。 注 意 ， 这 些 语 法 分 析 树 并 不 是 ANTLR 基 于 原先 的 左 递 


归 规 则 建立 的 。 这 些 是 转换 后 的 规则 对 应 的 语法 分 析 树 。 如 图 14-1 所 示 
为 样 例 输入 和 相应 的 语法 分 析 树 。 


1+2 142*3 1*2+3 
expr[0] expr[0] expr[0] 
1 十 人 1 + expr[4] 1 * expr[5] + expr[4] 
2 2 * expr[5] 2 3 


3 


图 14-1 样 例 输入 及 其 相应 的 语法 树 


在 第 一 棵 树 中 ， 对 expr 的 初始 调用 传递 的 p 是 0(，expr 立 刻 匹配 了 
WUNTIID) 子规 则 对 应 的 1°。 现在 expr 必 须 决 定 是 匹配 接 下 来 的 +， 还 是 
直接 退出 循环 并 返回 。 此 时 ， 执 行 的 判定 是 {3>=0}? ， 因 此 ， 我 们 进 
入 了 循环 ， 匹 配 到 了 +， 然 后 递归 调用 了 expr 规 则 ， 传 递 了 参数 4。 下 一 
次 调用 匹配 到 了 2 并 立即 返回 ， 因 为 没有 更 多 的 输入 了 “。expr[0] 随 后 返 
回 到 了 最 初 的 stat 中 对 expr 的 调用 。 


第 二 标 树 展示 了 expr[0] 匹 配 1， 以 及 又 一 次 的 {3>=0}? 判定 ， 它 人 允许 我 
们 匹配 + 和 下 一 次 调用 expr[4]。 这 次 调用 匹配 到 了 2， 然 后 执行 判定 
{4>=4}? ， 它 允许 语法 分 析 屁 通过 expr[5]， 进 一 步 匹 配 之 后 的 *。 


第 三 栋 语 法 分 析 树 是 最 有 趣 的 。 最 初 的 调用 expr[0] 匹 配 了 1 和 * ， 因 为 
{4>=0}? 结 采 为 真 。 此 循环 递归 调用 了 expr[5]， 并 匹配 了 2。 现 在 ， 在 
expr[5] 的 内 部 ， 语 法 分 析 器 不 应 当 匹 配 +， 因 为 这 样 的 话 ，2+3 就 会 在 
乘法 之 前 被 执行 〈 即 在 语法 分 析 树 中 ， 我 们 会 看 到 expr[5] 的 子 节 点 是 
2+3) 。 判 定 {3>=5}? 关闭 了 对 应 的 备 选 分 支 ， 因 此 expr[5] 没 有 匹配 

+ 束 提 前 运 回 了 。 在 返回 之 后 ， 由 于 {3>=0}? 为 真 ，expr[0] 匹 配 了 +3。 


我 希望 本 章 的 内 容 能 够 加 深 大 家 对 优先 级 上 升 机 制 的 理解 。 欲 了 解 更 


多 细 世 ， 请 参阅 Norvell 风 论述 。 


第 15 章 “语法 参考 


本 书 的 大 部 分 内 容 是 ANTLR 的 使 用 指南 。 本 章 是 对 ANTLR 语 法 及 其 关 
键 语义 的 参考 和 总 结 。 但 是 这 并 不 意味 着 它 是 对 ANTLR 的 使 用 方法 的 
一 份 完整 描述 。 本 书 中 的 所 有 示例 的 源 代码 都 可 以 在 网 站 上 获取 。 


15.1 语法 词汇 表 


ANTLR 的 词汇 表 为 绝 大 多 数 开发 者 所 熟知 ， 因 为 它 遵循 C 语 言及 其 继 
承 痢 的 句法 规则 ， 此 外 ， 它 还 引入 了 一 些 扩展 ， 用 于 对 语法 进行 摘 


了 述 。 


1. 注 释 


ANTLR 文 持 和 单行、 多 行 ， 以 及 Javadoc 风 格 的 注释 。 


/** 这 份 语法 用 于 展示 三 种 
* ”注释 

A 
grammar T; 


/* 多 行 
注释 
"y 


/** 此 规则 匹配 自 定义 语言 中 的 一 个 声明 */ 
decl : ID ; // 匹配 一 个 变量 名 


其 中 ，Javadoc 风 格 的 注释 不 会 被 忽略 ， 它 们 会 被 送 入 语法 分 析 器 。 它 
们 只 能 出 现在 语法 和 任意 规则 的 开头 。 

2. 标 识 符 

词法 符号 名 和 词法 规则 名 总 是 以 大 写字 母 开 头 ， 其 中 的 “大 写字 母 " 由 
Java 的 Character.isUpperCase () 方法 定义 。 文 法 规则 总 是 以 小 写字 母 


开头 〈 即 CharacterisUpperCase () 方法 返回 值 为 false) 。 首 字母 之 后 
的 字符 可 以 是 大 小 写字 符 、 数 字 和 下 划 线 。 下 面 是 一 些 样 例 : 


ID，LPAREN，RIGHT_CURLY // 词法 符号 和 词法 规则 名 
expr，SimpLeDecLarator，d2，header file // 文法 规则 名 


与 Java 类 似 ，ANTLR 人 允许 标识 符 中 出 现 Unicode 字 符 。 


grammar 外; 
de hs 


ANTLR 使 用 下 列 规则 ， 以 文 持 文 法 规则 和 词法 规则 中 的 Unicode 字 符 


ID .3 a=NameStartChar NameChar* 


{ 
if ( Character.isUpperCase(getText().charAt(0)) ) setType(TOKEN REF); 
else setType(RULE REF); 


} 


其 中 的 NameChar 即 有 效 的 标识 符 字 符 : 


'\u203F"' ..'\u2040" 


fragment 
NameChar 
: NameStartChar 
| "Os"9 
i 
| '\u0O0B7' 
| '\u0300'..'\u036F' 
| 


NameStartChar 是 能 够 作为 标识 符 规则、 词法 符号 、 标 签名 ) 首 字 符 


的 学 他 列表 * 
fragment 
NameStartChar 
‘AaZ” | "dun 
| '\uQ0CO'..'\u0O0D6' 
| '\u00D8'..'\uOOF6' 
| '\uQOF8'..'\uO2FF' 
| '\u0370'.,.'\u037D' 
| '\u037F'..'\ulFFF' 
| '\u200C'..'\u200D' 
| '\u2070'..'\u218F' 
| 


'\u2C00'.."\u2FEF' 


| "Yu3001'..'\uD7FF' 
| "I\uF900'..'\uFDCF' 
| '\uFDFO'..'\uFFFD' 


这 些 字符 大 致 与 Java 的 Character 类 中 的 isJavaIdentifierPart () 和 
isJavaIdentifierStart () 方法 一 致 。 如 果 你 的 语法 文件 编码 不 是 UTF-8， 
请 确保 在 ANTLR 工 具 中 使 用 -encoding 选 项 ， 以 便 ANTLR 能 够 正确 地 读 


取 字 符 。 


3. 文 本 音量 


与 大 多 数 其 他 语言 一 样 ，ANTLR 不 区 分 字符 常量 和 字符 串 常 量 。 所 有 
的 文本 篆 量 都 是 由 单 引号 括 起 来 的 字符 串 ， 如 '; ' 让、>= 和 \" 《只 包 
含 一 个 单 引号 的 字符 串 ) 。 文 本 常量 不 支持 正则 表达 式 。 


文本 常量 可 以 包含 XXXX 形 式 的 Unicode 转 义 序 列 ， 其 中 XXXX 是 十 
六 进 制 的 Unicode 字 符 值 。 例 如 ，\Nu00E8' 是 法 语 字符 心 。ANTLR 也 能 够 
识别 常见 的 转 义 序列 : \n” (换行 符 ; 、N 〈 回 车 符 ) 、\ 〈 制 表 

) 、\b ( 退 格 符 ， ，、'f ( 换 页 符 ) 。 你 可 以 直接 使 用 它们 或 者 使 用 
Unicode 的 转 义 形式 。 详 见 codereference/Foreign.g4。 


符 


ANTLR 生 成 的 识别 堪 假定 语法 中 的 字符 都 是 Unicode 字 符 。ANTLR 运 
行 库 根据 目标 语言 对 输入 文件 的 编码 作出 假设 。 例 如 ， 对 于 目标 语言 


征 Java 的 情况 ， 运 行 库 假 定 输入 文件 为 UTF-8 编 码 。 你 可 以 使 用 一 些 类 


的 构造 器 来 指定 编码 ， 例 如 ANTLRFileStream 。 
4. 动 作 


动作 是 使 用 目标 语言 编写 的 代码 块 。 你 可 以 在 语法 中 的 很 多 位 置 使 用 
动作 ， 它 们 的 格式 是 相同 的 ， 由 人 花 括 号 包围 的 任意 文本 。 如 有 果 右 化 括 
号 位 于 字符 串 或 者 注释 中 ， 则 无 须 转 义 它 ， 如 {"}")} 或 者 {+}*/; }。 在 
化 括号 平衡 的 情 帝 下 ， 无 须 转 义 }， 如 {{...}}。 其 他 情况 下 ， 额 外 的 花 
括号 需要 使 用 反 斜 杠 转 义 : {WM} 或 者 人 }。 动 作 代码 应 当 遵循 language 


选项 指定 的 目标 语言 的 语法 。 


内 榴 代 码 可 以 出 现在 以 @header 和 @members 命 名 的 动作 、 词 法 和 文法 
规则 、 指 定 异常 捕获 区 、 文 法 规则 的 属性 区 域 (返回 值 、 参 数 以 及 局 
部 变量 ) ， 以 及 一 些 规则 元 素 的 选项 (当前 只 有 判定 ) 中 。 


ANTLR 对 动作 进行 解释 的 唯一 情形 钙 在 语法 的 属性 中 ， 请 参阅 15.4 市 
中 “词法 符号 属性 ?部 分 和 第 10 章 。 内 骸 在 词法 规则 中 的 动作 会 被 不 加 
任何 处 理 地 输送 给 生成 的 词法 分 析 器 。 


5. 关 键 字 


下 面 是 ANTLR 语 法 中 的 保留 字 列 表 : import、fragment、]lexer、 


parser ~ grammar 、 returns 、 locals 、 throws 、 catch 、 finally 、 mode 、 


options、tokens。 此 外 ， 虽 然 rule 不 是 一 个 关键 字 ， 但 是 避免 将 它 作为 
规则 或 者 备 远 分 支 名 ， 因 为 这 样 会 使 得 目 动 生成 的 RuleContext 上 下 文 
对 象 与 内 置 类 冲突 。 男 外 ， 不 要 使 用 目标 语言 中 的 关键 字 作 为 词法 符 
号 、 标 签 或 者 规则 名 。 例 如 ，if 规 则 会 生成 if () 函数 。 


15.2 ”语法 结构 


一 份 语法 由 一 个 语法 声明 和 紧 随 其 后 的 知 干 条 规则 构成 ， 具 有 如 下 的 
通用 形式 : 


/** 可 选 的 Javadoc 风格 的 注释 */ 
@ grammar Name ; 
options {...} 
import ... ; 
tokens {...} 
@actionName {...} 
《rulel»》 // 可 能 混杂 在 一 起 的 文法 规则 和 词法 规则 


«ruleN» 


包含 语法 X 的 文件 必须 被 命名 为 X.g4。 其 中 的 options、import、token 疡 
明 ， 以 及 动作 可 以 以 任意 次 序 出 现 。 其 中 ，option、import 和 token 声 明 
是 可 有 可 无 的 ， 最 多 只 能 出 现 一 次 ， 而 位 置 


处 的 文件 头 以 及 至 少 一 条 规则 则 必须 存在 。 规 则 的 形式 如 下 : 


ruleName : «alternativel»》 | ... | «alternativeN» ; 


文法 规则 必须 以 小 写字 母 开头 ， 词 法 规则 必须 以 大 写字 母 开 头 。 


不 沉 前 缀 的 语法 声明 是 混合 语法 ， 可 以 同时 包含 词法 规则 和 文法 规 
则 。 欲 创建 一 份 只 允许 文法 规则 出 现 的 语法 ， 使 用 如 下 声明 : 


parser grammar Name; 


目 然 ， 纯 词法 的 语法 如 下 所 示 : 


Lexer grammar Name; 


只 有 词法 规则 语法 才能 包含 模式 声明 。 


15.5 节 详细 讲述 了 编写 规则 所 需 的 句法 。15.8 节 描述 了 语法 的 选项 
(options) ，15.4 节 给 出 了 与 语法 级 别 的 动作 相关 的 信息 。 我 们 稍 后 囊 
会 看 到 语法 的 导入 、 词 法 符号 声明 ， 以 及 具名 的 动作 。 


1. 语 法 叶 入 


如 前 所 述 ， 语 法 导入 允许 你 将 语法 分 解 成 可 复 用 的 逻辑 早 元 。ANTLR 
处 理 被 导入 的 语法 的 方式 和 面向 对 象 语言 中 的 父 类 非常 相似 。 一 个 语 
法 会 从 其 导入 的 语法 中 继承 所 有 的 规则 、 词 法 符号 声明 和 具名 的 动 


作 。 位 于 “主语 法 ?中 的 规则 将 会 履 兰 其 导入 的 语法 中 的 规则 ， 以 此 来 
实现 继承 机 制 。 


可 以 将 import 看 作 是 一 种 智能 的 、 不 会 引入 本 文件 中 己 经 定义 过 的 规则 
的 引入 语句 (include statement) 。 一 系列 的 导入 会 生成 一 份 单独 的 混 
合 语法 ，ANTLR 代 人 码 生成 璐 看 到 的 是 最 终 的 完整 语法 ， 即 它 对 被 导入 
语法 至 不 知情 。 


在 处 理 一 份 主语 法 的 过 程 中 ，ANTLR 工 具 将 所 有 被 导入 的 语法 加 载 到 
一 起 ， 然 后 将 其 中 的 规则 、 词 法 符号 类 型 以 及 具名 动作 合并 到 主语 法 

中 。 如 图 15-1 所 示 ， 石 侧 的 语法 展示 了 导入 ELang 语 法 后 的 MyYELang 语 
法 : 


grammar MyELang; grammar ELang; grammar MyELang; 
import ELang; stat : (expr ;)+; stat : (expr ;")+; 
expr:INT|ID ; expr:INT|1D 
INT : [0-9]+ INT : [0-9]+ 
ID :Bzis; WS :[\nt\n]+ -> skip; 
ID :[a-z]+; 


图 15-1 导入 ELang 语 法 后 的 MyELang 语 法 


MyELang 继 承 了 stat、WS 和 ID 规 则 ， 并 且 禾 盖 了 expr 规 则 ， 增 加 了 INT 
规则 。 下 面 的 构建 和 测试 步骤 显示 ，MyELang 能 够 识别 原先 的 ELang 所 


无 法 识别 的 整数 表达 式 。 第 三 行 的 错误 触发 的 错误 消息 也 显示 ， 语 法 
分 析 器 试图 寻找 的 是 MyELang 而 非 ELang 的 expr。 


> $ antLr4 MyELang.g4 

> $ javac MyELang*.java 

过 $ grun MyELang stat 

这 34; 

> a; 

za 

-》 Eo 

《 line 3:0 extraneous input ';' expecting {<EOF>, INT, ID} 


如 果 其 中 存在 词法 符号 声明 ， 主 语法 会 将 其 合并 到 词法 符号 集合 中 。 
任意 的 具名 动作 ， 如 @members 同 样 也 会 被 合并 。 通 常 ， 应 当 人 避免 将 具 
名 动作 放 在 被 导入 语法 的 规则 中 ， 因 为 这 样 会 限制 这 些 语法 的 复 用 。 
ANTLR 会 忽略 被 导入 语法 中 的 所 有 选项 (options) 。 


被 导入 的 语法 可 以 导入 其 他 语法 。ANTLR 按 照 深 度 优 先 的 策略 处 理 所 
有 的 被 导入 语法 。 如 果 多 于 一 个 的 语法 定义 了 规则 r，ANTLR 选 择 它 发 
现 的 第 一 条 r 作 为 结果 。 在 图 15-2 中 ，ANTLR 按 照 Nested、G1、G3、 
G2 的 顺序 处 理 语法 。 


Nested 包 含 的 规则 来 自 ANTLR 首 先 看 到 的 G3 而 非 随后 看 到 的 G2 。 
并 非 每 种 类 型 的 语法 都 能 导入 其 他 类 型 的 语法 。 
词法 语法 能 导入 词法 语法 


-句法 语法 能 导入 句法 语法 


混合 语法 能 导入 词法 语法 或 者 句法 语法 


Di 


ANTLR 将 被 导入 的 规则 放置 在 主语 法 的 词法 规则 列表 末尾 。 这 意味 
着 ， 主 语法 中 的 词法 规则 具有 比 被 导入 语法 中 的 规则 更 高 的 优先 级 。 
例如 ， 如 果 一 份 主 语法 定义 了 规则 下 : 认 ， 被 其 导入 的 语法 定义 了 规则 
ID: [a-z]+ ( 它 也 能 识别 if) ，ID 不 会 隐藏 主语 法 中 的 下 词法 符号 定 


AAA 
义 。 


grammar G3; 


grammar Nested; 
s:r; //from Nested 
r:B;//from G3 
t:A; //from G1 


grammar Nested; 
import G1, G2; 
Se 


图 15-2 ”按照 Nested、G1、G3、G2 顺 序 处 理 语法 的 ANTLR 


2. 词 法 符号 声明 


tokens 区 域 存在 的 意义 在 于 ， 它 定义 了 一 份 语法 所 需 ， 但 却 未 在 本 语法 
中 列 出 对 应 规则 的 词法 符号 。 基 本 的 语法 如 下 : 


tokens { «Token1>»》, ..., «TokenN>»> 上 


大 多 数 情 况 下 ，tokens 区 域 用 于 定义 本 语法 中 动作 所 需 的 词法 符号 类 型 
( 详 见 10.3 节 ) 。 


// 显 式 定 义 关键 字 词法 符号 类 型 ， 以 避免 隐 式 定义 引发 的 警告 
tokens { BEGIN, END, IF, THEN, WHILE } 
@lexer: :members {  // 关键 字 Map， 用 于 在 词法 分 析 器 中 对 词法 符号 赋予 类 型 什 
Map<String,Integer> keywords = new HashMap<String,Integer>() {{ 
put("begin", KeywordsParser.BEGIN); 
put ("end", KeywordsParser .END); 


}}; 
} 


tokens 区 域 实际 上 仅仅 是 一 些 会 被 合并 到 整体 词法 符号 集合 中 的 词法 符 
本 是 六 


$ cat Tok.g4 

grammar Tok; 

tokens { A, B, C } 

a XX; 

$ antlr4 Tok.g4 

warning(125): Tok.g4:3:4: implicit definition of token X in parser 
$ cat Tok.tokens 

A=1 


3. 语 法 级 别 的 动作 


10.1 节 中 “在 语法 规则 之 外 使 用 动作 ”部 分 展示 了 语法 文件 级 别 的 具名 动 
作 的 实际 应 用 。 当 前 ， 只 有 两 种 动作 (对 于 Java 目 标语 言 而 言 ) 


header 和 members。 前 者 用 于 将 代码 注入 生成 的 识别 类 中 的 类 声明 之 
前 ， 后 者 用 于 将 代码 注入 为 识别 类 的 字段 和 方法 。 


对 于 混合 语法 ，ANTLR 同 时 将 这 些 代 人 码 注入 到 词法 分 析 右 和 语法 分 析 
吉 中 。 欲 令 其 只 出 现在 语法 分 析 亏 或 者 词法 分 析 希 中 ， 使 用 


@parser: : name 或 者 @lexer: : name。 


下 面 的 例子 显示 了 为 生成 代码 指定 包 名 的 过 程 : 
reference/foo/Count.g4 

grammar Count 

@header { 


package foo; 


@members { 
Int count = 0; 


} 


list 
@after {System.out.println(count+" ints");} 
: INT {count++;} (',' INT {count++;} )* 


INT : [0-9]+ ; 
WS : [ \r\t\n]+ -> Skip ; 


语法 本 喘 应 当 位 于 foo 目 录 中 ， 这 样 ANTLR 就 会 将 代码 生成 到 该 目录 下 
(也 可 以 利用 -o 选 项 指定 输出 目录 ) 


人 今 $ cd foo 
今 $ antLr4 Count.g4  # 在 当前 目录 foo 中 生成 代码 


$1s 
《 Count.g4 CountLexer.java CountParser.java 
Count .tokens CountLexer.tokens 


CountBaseListener.java CountListener.java 
今 $ javac *.java 
$cd.. 
过 $ grun foo.Count list 
> 9, 10, 11 
= Eo 
《3 ints 


Java 编 译 屁 会 在 foo 目 录 中 寻找 foo 包 下 的 类 。 


至 此 ， 我 们 已 经 全 面 了 解 了 语法 的 结构 ， 接 下 来 让 我 们 深入 研究 一 下 
文法 规则 和 词法 规则 。 


15.3 文法 规则 


语法 分 析 套 由 一 系列 文法 规则 组 成 ， 这 些 规则 既 可 以 位 于 文法 语法 
中 ， 也 可 以 位 于 混合 语法 中 。Java 程 序 通过 调用 ANTLR 目 动 生成 的 、 
与 预期 的 起 始 规 则 相对 应 的 函数 来 局 动 语法 分 析 紫 。 规 则 最 基本 的 形 
式 是 规则 名 后 面 紧 接 看 一 个 备 这 分 文 ， 然 后 是 一 个 分 号 。 


/** Javadoc 注释 可 以 放 在 规则 之 前 */ 
retstat : 'return' expr ';»' 


规则 中 可 以 包 侣 由 | 分 隔 的 备 选 分 文 。 


stat: retstat 
| 'break' ';»' 
| 'continue' ';'" 


备 选 分 文 是 一 组 可 以 为 空 的 规则 元 素 列 表 。 例 如 ， 下 列 规则 中 的 至 备 
选 分 文 使 得 整 条 规则 成 为 了 可 选 的 : 
superClass 


‘extends' ID 
| // 空 规 则 意味 着 其 他 的 备 选 分 支 是 可 选 的 


1. 备 选 分 文 的 标签 


正如 我 们 在 7.47 中 所 看 到 的 ， 我 们 可 以 使 用 天 对 最 外 层 的 备 选 分 文 添加 
标签 ， 以 获得 更 加 精确 的 语法 分 析 器 监听 吉事 件 。 一 条 规则 中 的 备 选 
分 文 要 么 全 部 市 上 标签 ， 要 么 全 部 不 市 标签 。 下 面 两 条 规则 中 ， 备 选 
分 文部 补 加 上 了 标签 : 


reference/AltLabels.g4 
grammar AltLabels; 


stat: 'return' e ';' # Return 
| 'break' ';' # Break 
e e '*' e # Mult 
|e'+'e # Add 
| INT # Int 


备 选 分 文 的 标签 无 须 位 于 行 尾 ，# 后 的 空格 也 不 是 必需 的 。 


ANTLR 为 每 个 标签 生成 一 个 规则 上 下 文 类 。 例 如 ， 下 面 是 ANTLR 生 成 
的 监听 器 : 


public interface ALtLabeLsListener extends ParseTreeListener { 
void enterMult(AltLabelsParser.MultContext ctx); 
void exitMult(AltLabelsParser.MultContext ctx); 
void enterBreak(AltLabelsParser.BreakContext ctx); 
void exitBreak(ALtLabeLsParser.BreakContext ctx); 
void enterReturn(ALtLabeLsParser.ReturnContext ctx ) ; 
void exitReturn(AltLabelsParser.ReturnContext ctx); 
void enterAdd(AltLabelsParser.AddContext ctx); 
void exitAdd(AltLabelsParser.AddContext ctx); 
void enterInt(ALtLabeLsParser.IntContext ctx); 
void exitInt(AltLabelsParser.IntContext ctx); 


其 中 ， 每 个 市 标签 的 备 选 分 文 都 对 应 了 一 个 进入 方法 和 一 个 退出 方 
法 。 参 数 的 类 型 取决 于 备 选 分 文本 号。 你 可 以 在 不 同 的 规则 中 使 用 相 
同 的 标签， 这 会 使 得 语法 分 析 树 过 历 背 触发 相同 的 事件 。 例 如 ， 下 面 
征 e 规 则 的 变 体 ， 它 复 用 了 标签 BinaryOp: 


e 2 “*” © # Binary0p 
|e'+' e # Binary0p 
| INT # InNnt 


ANTLR 会 为 e 生 成 如 下 的 监听 妮 事 件 : 


void enterBinaryOp(AltLabelsParser.BinaryOpContext ctx); 
void exitBinary0p(ALtLabeLsParser.Binary0OpContext ctx); 
void enterInt(ALtLabeLsParser.IntContext ctx); 
void exitInt(AltLabelsParser.IntContext ctx); 


如 全 一 个 备 选 分 文 名 与 另外 一 条 规则 名 产生 冲突 ，ANTLR 会 提示 出 
错 。 下 面 的 是 规则 e 的 另外 一 个 变 体 ， 它 包含 两 个 与 规则 名 神 突 的 备 选 


分 文 标签: 


reference/Conflict.g4 


e : e '*' e #e 
|e'+'e # Stat 


| INT # Int 


由 规则 名 生成 的 上 下 文 对 象 类 的 名 字 有 是 通过 将 规则 名 或 者 备 选 分 文 标 
签名 大 写 得 到 的 ， 因 此 Stat 标 等 和 stat 规 则 产生 了 神 突 。 


$ antLr4 Conflict.g4 

error(124): Conflict.g4:6:23: rule alt label e conflicts with rule e 
error(124): Conflict.g4:7:23: rule alt label Stat conflicts with rule stat 
warning(125): Conflict.g4:2:13: implicit definition of token INT in parser 


2. 规 则 上 下 文 对 象 


ANTLR 为 每 个 规则 引用 生成 规则 上 下 文 对 象 即 语法 分 析 树 证 点 的 
访问 方法 。 对 于 只 包含 一 条 规则 引用 的 规则 ，ANTLR 会 生成 一 个 无 参 
方法 。 例 如 ， 对 于 下 列 规则 : 


ANTLR 和 后 成 的 上 下 文 类 如 下 : 


public static class IncContext extends ParserRuLeContext { 
public EContext e() { ..，}V// 返回 e 对 应 的 上 下 文 对 象 


在 规则 中 包含 不 止 一 个 规则 引用 时 ，ANTLR 也 提供 了 对 各 上 下 文 对 象 
访问 的 文 持 。 


field : e '.'e,; 


ANTLR 生 成 一 个 单 参数 方法 ， 其 参数 是 访问 第 i 个 规则 元 素 时 的 索引 
值 ， 另 外 它 还 生成 一 个 方法 ， 返 回 该 规则 对 应 的 所 有 上 下 文 对 象 。 


public static class FieldContext extends ParserRuleContext { 
public EContext el(int i) { ... } // 获得 第 i 个 e 上 下 文 对象 
public List<EContext> e() { ... } // 返回 所 有 的 e 上 下 文 对 象 


如 果 另 外 一 条 规则 s 引 用 了 field， 那 么 可 以 通过 内 航 动 作 来 访问 field 匹 
配 到 的 e 的 列表 。 
s : field 


{ 
List<EContext> x = $field.ctx.e(); 


} 


监听 絮 或 者 访问 器 能 够 完成 同样 的 工作 。 给 定 一 个 FieldContext 对 和 象 f， 


f.e () 将 会 返回 List<EContext>。 


3. 规 则 元 素 标签 


可 以 使 用 = 符号 给 规则 元 素 增加 标签 ， 以 此 为 规则 上 下 文 对 象 增加 字 


段 。 


stat: 'return' value=e ';' # Return 
| 'break' ';'" # Break 


这 里 的 value 束 是 规则 e 的 返回 值 ， 而 e 古 在 别处 定义 的 。 


标签 会 成 为 对 应 的 语法 分 析 树 万 点 类 的 字段 。 在 本 例 中 ，value 标 签 成 
为 ReturnContext 类 的 字段 ， 因 为 Return 标 签 的 存在 。 


public static class ReturnContext extends StatContext { 
public EContext value; 


你 可 以 使 用 +=“ 列 表 标 签 (list label) ”符号 来 方便 地 获取 一 组 词法 符 
号 。 例 如 ， 下 列 规则 创建 了 一 组 Token 对 象 ， 这些 对 象 是 由 一 个 简单 的 
数组 结构 匹配 到 的 : 


array : '{' el+=INT (',' el+=INT)* '}' ; 


ANTLR 在 相应 的 规则 上 下 文 类 中 生成 了 一 个 List 字 段 。 


public static class ArrayContext extends ParserRuleContext { 
public List<Token> el = new ArrayList<Token>(); 


列表 标签 符号 也 适用 于 规则 引用 。 


elist : exprSs+=e (',' exprs+=e)* ) 


ANTLR 会 生成 一 个 List 字 段 ， 用 于 存储 这 些 上 下 文 对 象 。 


public static cLass EListContext extends ParserRuleContext { 
public List<EContext> exprs = new ArrayList<EContext>(); 


4. 规 则 元 素 


规则 元 素 指明 了 语法 分 析 器 在 特定 的 时 间 需 要 完成 的 任务 ， 正 如 编程 
语言 中 的 语 名 一样。 规则 元 素 可 以 是 一 条 规则 、 一 个 词法 符号 或 者 一 
个 字符 串 常 量 ， 例 如 expression、ID 和 'return'。 表 15-1 是 规则 元 素 的 所 
有 可 行 值 (我 们 稍 后 会 详细 分 析 动 作 和 判定 ) 


表 15-1 规则 元 聚 的 所 有 可 行 值 


用 法 描 述 
T 在 当前 输入 位 置 上 匹配 词法 符号 T。 词 法 符号 总 是 以 人 写字 母 开头 
‘iteral' 在 当前 输入 位 置 上 匹配 字符 中 常量 。 一 个 字符 串 常 量 就 是 一 个 由 固定 字符 串 组 成 的 词法 符号 
在 当前 输入 位 置 上 匹配 规则 r， 这 相当 于 像 函 数 一 样 调用 该 规则 。 文 法 规则 名 总 是 以 小 写字 母 开头 


在 当前 输入 位 置 上 匹配 r+， 并且 像 函 数 调用 一 样 传递 一 组 参数 。 方 括号 中 的 参数 格式 依 日 标语 言 而 
定 ， 通常 是 一 组 由 逗号 分 隔 的 表达 式 列表 
在 前 一 个 备 选 分 支 元 素 之 后 、 后 一 个 备 选 分 支 元 素 之 前 执行 一 段 动作 代码 。 动 作 中 的 代码 符合 目 
{xaction»} ”| 标语 言 的 语法 。ANTLR 原封 不 动 地 将 这 些 动作 代码 拷贝 到 生成 的 类 中 ， 除 了 其 中 的 属性 占 位 符 和 词 
法 符号 引用 ， 如 $x 和 $x.y 
执行 语义 判定 «<p»。 在 运行 时 ， 如 果 “py 的 结果 为 假 值 ， 那 么 停止 对 该 判定 之 后 的 部 分 进行 语法 
{dp»}? 分 析 。 判 定 多 用 在 预测 的 场合 中 ， 当 ANTLR 需要 区 分 多 个 备 选 分 支 时 ， 它 动态 地 开启 或 关闭 其 对 
应 的 某 个 ( 某 些 ) 备 选 分 支 
匹配 任意 除 文件 结 束 符 之 外 的 语法 符号 。 它 被 称 为 通配符 (wildcard) 


r[«args»] 


当 你 需要 匹配 除了 一 个 /一 组 词法 符号 之 外 的 任何 东西 时 ， 使 用 ~“ 非 ” 运 
算 符 。 该 运算 符 很 少 被 用 于 语法 分 析 器 中 ， 尽 管 这 是 可 行 的 。~INT 匹 

配 除 INT 之 外 的 任意 词法 符号 ，~'，' 匹 配 除 豆 号 之 外 的 任意 词法 符号 。 

~ (INTIID) 匹配 除 INT 或 人 D 之 外 的 任意 词法 符号 。 词 法 符号 、 字 符 串 

常量 以 及 语义 判定 这 些 规则 元 素 可 以 携带 选项 (option) 。 详 见 15.8 节 

中 的 “规则 元 素 选 项 ”部 分 。 


5. 子 规则 


一 条 规则 可 以 包含 称 为 子规 则 的 备 选 分 支 块 ( 即 扩展 巴克 斯 -诺尔 范 
式 ，Extended BNF Notation，EBNF) 。 子 规则 和 规则 相似 ， 只 是 缺少 
名 字 并 被 包 于 在 圆 括号 内 。 在 子规 则 的 括号 内 ， 可 以 包含 一 个 或 者 多 
个 备 选 分 文 。 子 规则 不 能 像 规则 一 样 使 用 local 和 和 returm 定 义 属性 。 存 在 
四 种 类 型 的 子规 则 (其 中 x、y、z 代 表 语 法 元 素 ) 。 


(x|ylz) 
匹配 该 子规 则 内 的 任意 备 选 分 支 一 次 。 示 例如 下 : 
returnType : (type | 'void') ; 


(xly|z) 2 
匹配 子规 则 内 的 备 选 分 支 或 者 不 匹配 任何 东西 。 示 例如 下 : 
classDeclaration 


'class' ID (typeParameters)? ('extends' type)? 
('implements' typeList)? 
classBody 


(x|y|72) * 
匹配 该 子规 则 内 的 备 选 分 支 零 次 或 多 次 。 示 例如 下 : 


annotationName : ID ('.' ID)* 


(x|y|z) 十 
匹配 该 子规 则 内 的 备 选 分 支 一 次 或 多 次 ， 示 例如 下 : 


annotations : (annotation)+ ; 


你 可 以 在 子规 则 中 的 ? 、* 和 + 后 加 ? 非 仿 禁 运算 符 ' ? ? 、*? 和 
+? ， 详 见 15.6 节 。 


作为 简写 ， 在 子规 则 仅 包 含 一 个 备 选 分 文 时 ， 你 可 以 忽略 子规 则 两 侧 
的 括号 。 例 如 ，annotation+ 和 (annotation) + 相同 ，ID+ 和 (ID) + 相 
同 。 简 写 的 方式 也 适用 于 标签 。ids+=INT+ 会 生成 一 列 INT 对 象 。 


6. 捕 获 异 季 


当 在 一 条 规则 中 发 生 语 法 错误 时 ，ANTLR 会 捕获 该 异常 ， 报 告 错误 ， 
并 试图 从 中 恢复 〈 可 能 通过 消费 更 多 的 词法 符号 来 完成 此 过 程 ) ， 然 
后 从 规则 中 返回 。 每 条 规则 都 包 右 在 一 个 try/catchy/finally 语 名 中 。 


void r() throws RecognitionException { 


try { 
«rule-body» 


catch (RecognitionException re) { 
_errHandler.reportError(this, re); 
_errHandler,.recover(this, re),; 


} 

finally { 
exitRule(); 

} 


在 9.5 市 中 ， 我 们 已 经 了 解 了 使 用 策略 对 象 修改 ANTLR 的 错误 处 理 机 制 
的 方法 。 但 是 ， 玲 换 标 这 种 策略 会 影响 所 有 的 规则 。 和 欲 修改 单条 规则 
的 异 和 处 理 机 制 ， 可 以 在 规则 定义 后 指定 一 个 异种 。 


catch[RecognitionException el] { throw e; } 


这 个 例子 展示 了 如 何 避 人 免 使 用 默认 的 错误 报告 和 处 理 机 制 。r 抛 出 的 异 
常 应 当 被 更 高 层 的 规则 所 报告 。 指 定 任 意 异常 都 会 令 ANTLR 不 再 生成 
默认 的 处 理 RecognitionException 的 代码 。 


你 也 可 以 指定 其 他 类 型 的 异常 。 


catch[FailedPredicateException fpe] { ... } 
catch[RecognitionException el { ... } 


在 花 括 号 中 的 代码 片段 以 及 作为 “参数 ”的 异常 必须 使 用 目标 语言 编写 
一 一 在 这 个 例子 中 惑 是 Java 。 


你 可 将 即使 异常 发 生 也 需要 执行 的 动作 代码 放 入 finally 语 句 中 。 


// 首先 是 catch 语句 块 


finally { System.out.println("exit rule r"); } 


finally 语 句 会 在 规则 返回 时 触发 的 exitRule () 之 前 执行 。 如 果 需 要 在 
规则 完成 对 备 选 分 文 的 匹配 之 后 、 清 理工 作 开始 之 前 执行 一 段 动 作 代 


码 ， 你 可 以 使 用 after 。 


表 15-2 是 异常 的 详细 列表 。 


表 15-2 异常 的 详细 列表 


异常 名 


RecognitionException 


NoViableAltException 


LexerNoViableAltException 


描 述 

这 是 ANTLR 自动 生成 的 识别 右 抛 出 的 所 有 异常 的 父 类 。 它 是 Runtime- 
Exception 的 子 类 ， 不 会 引起 烦 填 的 受 检 异 常 (checked exception)。 该 异常 
记录 识别 融 ( 语 法 分 析 带 或 者 词法 分 析 融 ) 在 当前 的 输入 文本 中 所 处 的 位 置 、 
ATN (代表 语法 的 内 部 图 数据 结构 ) 中 的 位 置 、 规 则 的 调用 栈 ， 以 及 发 生 错 
误 的 类 型 

语法 分 析 器 通过 分 析 剩 余 的 输入 ， 无 法 决定 采用 多 条 路 径 中 的 哪 一 条 。 该 
异常 记录 了 有 误 输入 的 起 始 词 法 符号 ， 以 及 在 错误 发 生 时 语法 分 析 器 所 处 的 
状态 


等 价 于 NoViableAltException ， 不 过 仅 出 现在 词法 分 析 器 中 


InputMismatchException 


当前 输入 的 Token 不 符合 语法 分 析 器 的 预期 


FailcdPrcdicatcExccption 


在 剪除 不 可 达 备 选 分 支 的 预测 过 程 中 ， 一 个 语义 判定 执行 结果 为 假 值 。 预 
测 发 生 在 某 条 规则 选择 所 采用 的 备 选 分 支 的 过 程 中 。 如 果 所 有 的 路 径 都 被 剪 
除了 ， 语 法 分 析 器 就 会 抛 出 NoViablcAltExccption。 如 果 在 正常 的 、 预 测 之 
外 的 语法 分 析 过 程 (匹配 词法 符号 和 调用 规则 ) 中 ， 某 个 判定 执行 结果 为 假 
值 ， 该 异常 就 会 由 语法 分 析 器 抛 出 


7. 规 则 属性 定义 


我 们 需要 了 解 许多 与 规则 和 动作 相关 的 语法 元 素 。 规 则 可 以 像 编程 语 
言 中 的 函数 一 样 ， 包 含 参数 、 返 回 值 以 及 局 部 变量 〈 在 规则 的 元 素 
中 ， 可 以 峙 入 动作 ， 我 们 将 会 在 15.4 帮 中 予以 学 习 ) 。ANTLR 会 将 你 
定义 的 所 有 变量 收集 起 来 并 存储 到 规则 上 下 文 对 象 中 ， 这 些 变 量 通常 
称 为 属性 。 下 面 的 通用 形式 展示 了 所 有 可 行 的 属性 定义 位 置 : 


rulename[&args»] returns [retvals»] locals [localvars»》] : ....,; 


定义 在 [.…] 中 的 属性 的 使 用 方法 和 其 他 任意 变量 一 样 。 下 面 的 示例 规则 
将 参数 值 传递 给 返回 值 : 


\IN、~ 


// 将 参数 值 与 INT 词法 符号 的 值 相 加 并 返回 结果 
add[int x] returns [int result] : '+=' INT {$result = $x + $INT.int;} ; 


在 语法 层面 上 ， 你 可 以 指定 规则 级 的 具名 动作 。 这 样 的 有 效 命 名 包括 
init 和 after。 顾 名 思 义 ， 语 法 分 析 右 在 试图 匹配 相应 规则 之 前 执行 init 动 
作 ， 在 结束 对 相应 规则 的 匹配 之 后 立即 执行 after 动 作 。ANTLR 的 after 
动作 不 会 作为 目 动 生成 的 规则 函数 的 finally 代 码 块 的 一 。 可 以 使 用 
ANTLR 的 finally 动 作 来 放置 需要 在 规则 函数 的 finally 块 中 执行 的 代码 。 


这 样 的 动作 位 于 任意 参数 、 返 回 值 或 局 部 变量 之 后 。10.2 节 开头 的 row 
规则 很 好 地 展示 了 这 种 用 法 。 


actions/CSV.g4 
/** 派生 自 规则 "row : field (',' field)* '\r'? '\n' ;" */ 
row[String[] columns] returns [Map<String,String> values] 
locals [int col=0] 
@init { 

$values = new HashMap<String,String>(); 


} 
@after { 
if ($values!=null && $values.size()>0) { 
System.out.printLn("vaLues = "+$values); 
} 
J 


row 规 则 接受 参数 columns， 返 回 values， 且 定义 了 局 部 变量 col 。 方 括号 
中 的 内 容 将 直接 拷贝 到 生成 的 代码 里 。 


public cLass CSVParser extends Parser { 
public static class RowContext extends ParserRuleContext { 
public String[] columns; 


public Map<String,String> values; 
public int col=0; 


生成 的 规则 函数 的 参数 即 规则 的 参数 ， 它 们 已 经 被 拷贝 到 了 局 部 的 
RowContext 对 象 中 。 


public class CSVParser extends Parser { 


public final RowContext row(String[] columns) throws RecognitionException { 
RowContext localctx = new RowContext( ctx, 4, columns); 
enterRule( localctx, RULE row); 


ANTLR 能 够 目 动 分 析 岂 套 在 动作 中 的 [...]， 因 此 String[]columns 能 够 得 
到 正确 的 解析 。 它 也 能 分 析出 尖 括 号 ， 所 以 泛 型 参数 中 的 逗号 不 会 被 
错误 解析 成 属性 的 分 隔 符 。 例 如 ，Map<String，String> 是 一 个 属性 定 
全 


一 个 动作 可 以 包含 多 个 属性 ， 即 使 是 作为 返回 值 的 动作 。 在 同一 段 动 
作 代码 中 ， 使 用 逗号 分 隔 多 个 属性 。 


a[Map<String,String> x, int y] : ...; 


ANTLR 将 上 壕 动作 代码 解析 为 两 个 参数 x 和 y 。 


public final AContext a(Map<String,String> x, int y) 
throws RecognitionException 

{ 
AContext localctx = new AContext( ctx, 0, x, y); 
enterRule( localctx, RULE a); 


8. 起 始 规则 和 文件 结束 符 


起 始 规 则 是 语法 分 析 絮 最 初 应 用 的 规则 ， 它 对 应 的 规则 函数 被 语言 
应 用 程序 所 调用 。 例 如 ， 一 个 解析 Java 的 语言 类 应 用 程序 可 能 会 调用 
parser.compilationUnit () ， 其 中 的 parser 是 一 个 JavaParser 对 象 。 语 法 


中 的 任意 规则 都 可 以 作为 起 始 规则 。 


起 始 规 则 不 需要 消费 全 部 的 输入 文本 。 它 们 只 消费 能 够 匹配 本 规则 的 
备 选 分 文 之 一 的 、 尽 可 能 多 的 输入 文本 。 例 如 ， 下 列 规则 能 够 根据 输 
入 情况 ， 目 动 匹配 一 个 、 两 个 或 三 个 词法 符号 : 

s : ID 


| ID “+ 
| ID '+' INT 


对 于 a+3， 规 则 s 匹 配 第 三 个 备 移 分支。 对 于 at+b， 它 匹配 第 二 个 备 选 分 
文 ， 忽 略 b。 对 于 ab， 它 匹配 第 一 个 备 选 分 文 ， 忽 略 b。 在 后 两 个 例子 
中 ， 语 法 分 析 天 并 没有 消费 掉 全 部 的 输入 文本 ， 因 为 规则 s 并 没有 明确 
是 明 ， 文 件 结束 符 必 须 出 现在 匹配 的 备 选 分 文 之 后 。 这 种 默认 行为 对 
于 编写 IDE 之 类 的 程序 是 非常 有 用 的 。 想 象 一 仆 ，IDE 试 图 解析 某 个 位 
于 巨大 的 Java 文 件 中 的 方法 。 对 规则 methodDeclaration 的 调用 应 当 仅 匹 
配 一 个 方法 而 忽略 其 后 的 文本 。 


另 一 方面 ， 摘 述 整个 输入 文件 的 规则 应 该 引用 等 殊 的 预定 义 词法 符号 
EOF。 如 果 不 使 用 它 ， 你 可 能 就 会 抓 吓 挠 甩 ， 感 到 迷惑 不 解 : 为 什么 
任何 输入 都 不 会 使 起 始 规则 报错 ? 下 列 规则 是 一 份 语法 的 一 部 分 ， 它 
负责 读 取 配置 文件 : 


config : element*; // 能 够 “匹配 ” 带 有 无 效 内 容 的 输入 文本 


无 效 输入 会 使 config 不 匹配 任何 输入 ， 立 即 返 回 ， 且 不 报告 错误 。 下 面 
征 正 确 的 用 法 : 


file : element* E0F; // 不 要 提前 结束 ， 必 须 匹 配 所 有 输入 文本 


15.4 动作 和 属性 


在 第 10 章 中 ， 我 们 已 经 学 习 了 如 何在 语法 中 藤 入 动作 ， 也 看 到 了 最 党 
见 的 词法 符号 和 规则 属性 。 本 节 总 结 了 其 中 的 重要 句法 和 语义 ， 提 供 
了 一 份 所 有 可 用 属性 的 完整 清单 。 


动作 是 以 目标 语言 编写 的 ， 位 于 化 括 号 中 的 文本 块 ， 识 别 右 根据 它们 
在 语法 中 的 位 置 ， 在 不 同 的 时 机 触发 之 。 例 如 ， 下 列 规则 在 语法 分 析 
稻 发 现 有 效 的 定义 后 ， 打 印 出 found a decl。 


decL: type ID ';' {System.out.println("found a decl");} ; 
type: 'int' | 'float' , 


大 多 数 情 况 下 ， 动 作 会 访问 特定 词法 符号 和 规则 引用 的 属性 。 


decl: type ID ';' 
{System.out.println("var "+$ID.text+":"+$type.text+";");} 
| t=ID id=ID ';' 
{System.out.println("var "+$id.text+":"+$t.text+";");} 


1. 词 法 符号 属性 


所 有 的 词法 符号 都 包 人 台 一 组 预定 义 的 只 读 属性 。 这 些 属性 包括 一 些 有 
用 的 数据 ， 例 如 词法 符号 类 型 以 及 其 匹配 的 文本 。 动 作 可 以 通过 
$label.attribute 方 式 访问 这 些 属性 ， 其 中 label 代 表 一 个 特定 的 词法 符号 

(下 例 中 的 $a 和 $b) 。 通 常情 况 下 ， 一 个 特定 的 词法 符号 在 规则 中 内 
会 出 现 一 次 ， 此 时 ， 在 动作 中 ， 用 词法 符号 名 来 引用 它 征 不 会 产生 必 
义 的 。 下 面 的 例子 展示 了 词法 符号 的 属性 表达 式 的 用 法 : 


r - INT {int x = $INT. line;} 
( ID {if ($INT.Line == $ID.line) ...;} )? 
a=FLOAT b=FLOAT {if ($a.line == $b.line) ...;} 


(...) ? 子规 则 中 的 动作 能 够 访问 到 自己 之 前 的 外 层 INT 词 法 符号 。 


其 中 ， 由 于 存在 两 个 FLOAT 词 法 符号 引用 ， 动 作 中 的 $FLOAT 并 不 是 唯 
一 的 ， 必 须 使 用 标签 来 指定 欲 访问 的 词法 符号 引用 。 


在 不 同 的 备 选 分 文中 ， 相 同 的 词法 符号 引用 二 唯一 的 ， 因 为 在 任何 规 
则 的 调用 中 ， 它 们 之 中 只 有 一 个 会 得 到 匹配 。 例 如 ， 在 下 列 规则 中 ， 
两 个 备 选 分 文 的 动作 都 可 以 直接 引用 $ID ， 而 无 须 使 用 标签 。 


r : ... ID {System.out.println($ID.text);} 
. ID {System.out.println($ID.text);} 


欲 访问 字符 串 常量 匹配 的 词法 符号 ， 则 必须 使 用 标签 。 


stat: r='return' expr ';' {System.out.println("line="+$r.line);} ; 


大 多 数 情况 下 需要 访问 的 都 是 词法 符号 的 属性 ， 不 过 有 时 候 也 需要 访 
问 Token 对 象 本 身 ， 因 为 它 聚 合 起 了 所 有 的 属性 。 此 外 ， 你 可 以 使 用 它 
来 测试 一 条 可 选 的 子规 则 是 否 匹 配 到 了 一 个 词法 符号 。 


stat: 'if' expr 'then' stat (el='else' stat)? 
{if ( $el!=null ) System.out.println("found an else");} 


. 


$T 和 $l 分 别 会 被 解析 成 名 为 了 的 词法 符号 和 标签 为 ! 的 词法 符号 。] 会 被 
解析 成 列表 标签 1 对 应 的 List<Token>。$T.attr 会 被 解析 成 类 型 为 T 的 词 
法 符号 以 及 表 15-3 中 的 属性 attr 对 应 的 类 型 和 值 : 


表 15-3 ”属性 attr 对 应 的 类 型 和 值 


属 性 | 类 型 描述 
text 间 法 符号 匹配 到 的 文本 ; 它 会 被 转换 成 getText() 方法 调用 。 例 如 : SIDtext 
type 间 法 符号 对 应 的 正 整数 类 型 值 ， 如 INT。 它 会 被 转换 成 getType() 方法 调用 。 例 如 :$ID.type 
line int 词法 符号 所 处 的 行 号， 从 1 开始 计数 。 它 会 被 转换 成 getLine() 方法 调用 ， 例 如 : $ID.line 


届 词法 符号 的 第 一 个 字符 在 行内 的 位 置 ， 从 0 开始 计数 。 它 会 被 转换 成 getCharPosition- 

了 袜 InLine() 方法 调用 。 例 如 :$ID.pos 
词法 符号 在 词法 符号 流 中 的 全 局 索引 值 ， 从 0 开始 计数 。 它 会 被 转换 成 getTokenIndex() 

方法 调用 。 例 如 : $ID.index 

词法 符号 所 在 的 通道 数 。 语 法 分 析 器 只 处 理 一 个 通道 的 词法 符号 ， 忽 略 其 他 通道 的 词法 


channel | int 符号 。 默 认 的 通道 是 0 ( Token.DEFAULT_CHANNEL)， 默 认 的 隐藏 通道 是 Token.HIDDEN_ 
CHANNEL。 它 会 被 转换 成 getChannel() 方法 调用 。 例 如 : $ID.channel 
词法 符号 持 有 的 整数 值 。 它 假设 词法 符号 的 文本 是 有 效 的 数字 。 对 于 计算 器 之 类 的 程序 ， 


这 个 属性 非常 有 用 。 它 会 被 转换 成 Integer.valueOf(text-of-token)。 例 如 : $INT.int 


2. 文 法 规则 属性 


ANTLR 预 定义 了 一 系列 只 读 的 文法 规则 属性 ， 供 动作 使 用 。 动 作 只 能 
访问 目 己 前 面 的 规则 属性 。 访 问 名 字 或 者 标签 为 ?的 规则 属性 的 语法 是 
$r.attr。 例 如， 下 面 的 $expr.text 返 回 expr 规 则 匹配 的 全 部 文本 的 内 容 。 


returnStat : 'return' expr {System.out.println("matched "+$expr.text);} ; 


规则 标 等 的 用 法 如 下 所 示 : 


returnStat : 'return' e=expr {System.out.println("matched "+$e.text);} ; 


也 可 以 使 用 $ 后 跟 属性 名 来 访问 当前 执行 的 规则 的 相应 属性 。 例 如 ， 
$start 是 当前 规则 的 起 始 词法 待 号 。 

returnStat : 'return' expr {System.out.println("first token "+$start.getText());} ; 
$r 和 g 和 会 被 解析 成 名 为 r 或 者 标签 名 为 r[I 的 规则 对 应 的 ParserRuleContext 


对 象 。$rl 会 被 解析 成 规则 列表 标签 名 为 中 对 应 的 List<RContext> 。 
$r.attr 会 被 解析 成 表 15-4 中 的 attr 属 性 对 应 的 类 型 和 值 。 


表 15-4 attr 属 性 对 应 的 类 型 和 值 


同人 | 交 | rE 

-条 规则 匹配 的 文本 或 者 从 这 条 规则 的 起 始 位 置 到 $text 当前 位 置 对 应 的 
文本 。 需 要 注意 的 是 ， 它 包含 了 隐藏 通道 中 的 全 部 词法 符号 ， 这 通常 是 正确 
的 ， 因 为 其 中 含有 全 部 的 空白 字符 和 注释 。 当 作为 当前 规则 的 属性 时 ， 它 可 
以 在 任何 动作 中 使 用 ， 包 括 异常 处 理 动作 


text String 


在 主要 词法 符号 通道 上 被 规则 匹配 到 的 第 一 个 词法 符号 。 换 句 话 说， 该 属 
性 永远 不 会 位 于 隐藏 通道 中 。 对 于 那些 不 匹配 任何 词法 符号 的 规则 ， 这 个 属 
性 指向 第 一 个 后 续 的 词法 符号 。 当 作为 当前 规则 的 属性 时 ， 它 可 以 在 规则 内 
的 任何 动作 中 使 用 

规则 匹配 到 的 最 后 一 个 非 隐藏 通道 的 词法 符号 。 当 作为 当前 规则 的 属性 
时 ， 它 仅 能 在 after 和 finally 动作 中 使 用 

-条 规则 调用 对 应 的 规则 FF 下文 对 象 。 通 过 这 个 属性 可 以 访问 其 余 全 部 属 
性 。 例 如 ，$ctx.start 访问 当前 规则 上 下 文 对 象 的 start 字段 。 它 等 价 于 $start 


start Token 


stop Token 


tx ParserRuleContext 


3. 动 态 作 用 域 属性 


和 通用 编程 语言 中 的 函数 一 样 ， 你 可 以 使 用 参数 向 规则 传递 信息 ， 并 
使 用 返回 值 接收 信息 。 但 是 ， 编 程 语 言 通常 不 允许 其 他 函数 访问 局 部 


变量 或 者 参数 。 


例如 ， 在 Java 中 ， 从 内 套 男 数 中 访问 局 部 变量 x 征 非法 的 : 


void f() { 
int x = 0; 
g(); 

} 


void g() { 
Wyss 
} 
void h() { 
int y = x; // 对 函数 ff 中 的 局 部 变量 x 的 非法 引用 
} 


变量 x 只 能 在 f () 的 作用 域 中 使 用 ， 该 作用 域 是 由 花 括 号 所 决定 的 词法 
作用 域 。 因 此 ，Java 的 作用 域 是 词法 作用 域 。 词 法 作用 域 是 大 多 效 编程 


语言 采用 的 方案 。 人 允许 方法 沿 着 调用 链 向 上 访问 之 前 定义 的 局 部 变量 
的 编程 语言 个 称 为 具有 动态 作用 域 。 其 中 的 “动态 ” 指 的 是 编译 事 无 法 
通过 藤 念 方式 决 定 可 见 的 变量 集合 。 这 是 由 于 对 于 一 个 方法 而 言 ， 可 
见 变量 的 集合 取决 于 它 的 调用 者 。 


在 语法 层面 上 ， 有 时 候 相距 很 远 的 两 条 规则 需要 进行 通信 ， 大 多 数 情 
况 下 是 为 了 向 调用 链 之 下 的 规则 提供 上 下 文 信息 (当然 ， 这 假设 你 直 
接 在 语法 中 向 入 了 动作 ， 而 非 语法 分 析 树 监听 器 的 事件 机 制 ) 。 
ANTLR 人 允许 这 样 的 动作 中 的 动态 作用 域 ， 即 使 用 $r: : x 访 问 调 用 者 规 
则 中 的 属性 ， 其 中 z 是 规则 名 ， 而 x 是 该 规则 中 的 属性 。 需 要 开发 者 自行 
保证 ，r 是 当前 规则 的 调用 者 ， 否 则 ， 当 访问 $r:， : x 时 ， 一 个 运行 时 异 
第 会 被 抛 出 。 


下 面 我 们 使 用 一 个 实际 问题 一 保证 表达 式 中 的 变量 都 已 经 个 定义 
一 一 来 展示 动态 作用 域 的 实际 应 用 。 下 列 语法 在 block 规 则 中 定义 了 
symbols 属 性 ， 并 在 decl 规 则 中 将 变量 名 加 入 其 中 。 随 后 的 stat 规 则 在 这 


个 列表 中 查询 变量 是 否 已 经 被 定义 。 


reference/DynScope.g4 
grammar DynScope; 


prog: block 


了 


block 
/* 在 这 个 代码 块 中 定义 的 符号 列表 ”*/ 
locals [ 


List<String> symbols = new ArrayList<String>() 
] 
'{' decl* stat+ '}' 
// 打印 block 中 的 所 有 符号 
// $block: :symbols 即 作用 域 中 定义 的 符号 列表 
{System.out.println("symbols="+$symbols);} 


, 


/** 匹配 一 个 变量 声明 ， 并 将 其 标识 符 名 加 入 符号 列表 
decl: 'int' ID {$block::symbols.add($ID.text);} ';" 


a 


/** 匹配 一 个 赋值 语句 ， 检 查 符 号 列表 ， 确 保 赋 值 语句 
* 左 侧 的 变量 名 已 经 存在 。 
* contains () 方法 是 List.contains()， 因 为 $bLock::symbotLs 
* 深 == 个 is 诗 


yh 
stat: ID '=' INT '»' 
{ 
if ( !$block::symbols.contains($ID.text) ) { 
System.err.println("undefined variable: "+$ID .text) ; 
} 
} 
| block 
TD [a-z]+ ; 
INT : [0-9]+ ; 
WS : [ \t\r\in]+ -> Skip ; 


下 面 是 构建 和 测试 步 又 的 示例 : 


6 


> $ antLr4 DynScope.g4 
过 $ javac DynScope*.java 
> $ grun DynScope prog 


1{ 
和 int i; 
= i1=0; 
=》 j= 3; 
> } 
= EoF 


《 undefined variable: j 
symbols=[i] 


在 使 用 @members 进 行 的 简单 字段 定义 和 动态 作用 域 之 间 存 在 一 个 重要 
区 别 。symbols 是 一 个 局 部 变量 ， 所 以 block 规 则 的 每 次 调用 都 会 生成 一 
份 拷 贝 。 这 正 古 我 们 所 期 望 的 行为 ， 我 们 可 以 在 内 部 代码 块 中 复 用 相 
同 的 输入 变量 名 。 例 如 ， 下 列 嵌 套 代码 块 在 内 部 作用 域 中 重新 定义 了 
i。 这 个 痢 定 义 必 须 隐 藏 掉 外 层 作 用 域 中 的 定义 。 


reference/nested-input 


{ 


下 面 是 使 用 DynScope 对 上 述 和 输入 进行 语法 分 析 的 结 


$ grun DynScope prog nested-input 
symbols=[i, x] 

undefined variable: x 

symbols=[i, j] 


$block: : symbols 访 问 最 近 一 次 调用 的 block 规 则 上 下 文中 的 symbols 字 
段 。 如 果 需 要 访问 更 上 层 的 调用 链 中 的 symbols 实 例 ， 可 以 沿 着 当前 上 
下 文 $ctx， 使 用 getParent () 回 上 寻找 。 


15.5 ”词法 规则 


词法 语法 由 词法 规则 组 成 ， 并 且 可 被 分 解 为 多 个 模式 ， 正 如 我 们 在 12.3 
“使 用 词法 模式 处 理 上 下 文 相 关 的 词法 符号 ?部 分 中 看 到 的 一 样 。 词 
法 模式 允许 我 们 将 一 份 词法 语法 分 解 成 多 个 于 语法 。 词 法 分 析 絮 只 能 
返回 当前 模式 下 的 规则 匹配 到 的 词法 符号 。 


词法 规则 的 定义 方式 和 文法 规则 非常 相似 ， 除 了 一 些 例外 ， 词 法 规则 
不 能 包含 参数 、 返 回 值 或 者 局 部 变量 。 词 法 规则 名 必须 以 大 写字 母 开 
头 ， 以 和 文法 规则 名 区 分 开 。 


/** 可 选 的 文档 注释 */ 
TokenName : «alternativel»》 | ... | «alternativeN» ; 


你 也 可 以 定义 一 些 规划， 它们 不 是 词法 符号 ,但 是 却 可 以 在 识别 过 程 
中 提供 词法 符号 的 功能 。 这 样 的 fragment 规 则 不 会 生成 语法 分 析 器 可 见 


的 词法 符号 。 


fragment HelperTokenRule : «alternative1l»》 | ... | «alternativeN» ; 


例如 ，DIGIT 古 一 条 非常 常用 的 fragment 规 则 。 


INT : DIGIT+ ; // 引用 了 DIGIT 辅助 规则 
fragment DIGIT : [0-9] ; // 它 本 身 不 是 一 个 词法 符号 


1. 词 法 模式 


词法 模式 允许 你 将 词法 规则 按照 上 下 文 分 组 ， 例 如 XML 标签 内 外 。 这 
和 以 下 情况 类 似 : 多 个 子 词法 分 析 瑚 负 贡 处 理 业务 ， 另 外 一 个 子 词法 
分 析 瑚 负责 处 理 上 下 文 。 词 法 分 析 瑚 只 能 返回 当前 模式 下 的 规则 匹配 
到 的 词法 符号， 词法 分 析 右 以 默认 模式 开始 。 除 非 使 用 mode 指 令 指 
定 ， 所 有 的 规则 都 处 于 默认 模式 下 。 模 式 只 能 出 现在 词法 语法 中 ， 在 
混合 语法 中 不 允许 出 现 〈 详 见 12.4 节 “将 XML 词法 符号 化 ?部 分 中 的 


XMLLexer 语 法 ) 。 


«rules in default mode» 


mode MODE1; 
rules In MODE1> 


mode MODEN; 
«rules In MODEN>> 


2. 词 法 规则 元 素 


有 两 种 结构 不 能 出 现在 文法 规则 中 ， 但 却 可 以 出 现在 词法 规则 中 即 :，. 
范围 运算 符 和 方 括号 包围 的 字符 集合 标记 [characters]。 不 要 将 字符 集合 
和 文法 规则 中 的 参数 相 混 消 。[characters] 在 词法 分 析 器 中 仅仅 意味 着 一 


个 字符 集合 。 表 15-5 征 所 有 的 词法 规则 元 素 的 总 结 。 


表 15-5 ”词法 规则 元 素 总 结 


用 法 
"litcral' 
用 法 


[char set] 


{«action»: 


{«p»}? 


“EE 


描 述 
匹配 指定 的 字符 或 者 字符 序列 。 例 如 : "while' 或 者 = 


( 续 ) 


描 述 

匹配 宁 符 集 中 的 一 个 宁 符 。x-y 意 为 从 x 到 y 的 字符 集合 (包括 x 和 y)。 下 列 转 义 宁 符 会 被 解释 
为 单个 学 符 : m、\r、\b、Yt 和 六。 如 果 需 要 表达 ]、\ 或 者 -， 则 必须 使 用 \ 进 行 转 义 。 此 外 ， 还 
可 以 使 用 Unicode 字符 形式 : XXXX。 下 而 是 一 些 示 例 : 

WS ; [ \n\u900D] -> skip ;  // 等 价 于 [ \n\r] 

ID : [a-zA-Z] [a-zA-Z0-9]* ; // 匹 天 常规 的 标识 符 

DASHBRACK : [\-\]]+ ; // 匹 天 - 或 者 ] 一 次 或 多 次 

匹配 x 与 y 之 问 的 单个 字符 (包括 x 和 y)。 例 如 : 'a'..z' 等 价 于 [a-z] 

调用 疗法 规则 T。 人 允许 一 般 情 况 下 的 递归 9， 但 是 不 允许 左 递归 。T 可 以 是 一 个 常规 的 疗法 符号 
或 者 fagmcnt 规则 : 


ID ; LETTER (LETTER| IQ sw Ye 
fragment 
LETTER : [a-zA-Z\uQ080-\uQOFF ] ; 


点 是 一 个 通配符 ， 它 匹配 任意 的 单个 字符 ， 例 如 : 

ESC : “1”，; // 匹配 任意 \x 转 义 字符 

词法 动作 必须 出 现在 最 外 层 的 备 选 分 支 末 尾 。 如 果 一 个 间 法 规则 包含 多 于 一 个 备 选 分 支 ， 需要 
将 它们 放 曾 在 括号 路 ， 并 令 动作 紧 随 其 后 : 

END : ('endif'|'end') {System.out.println("found an end");} ; 

动作 代码 遵循 日 标语 言 的 语法 。ANTLR 将 动作 代码 描 贝 到 生成 的 代码 中 ， 和 文法 规则 动作 不 
回 的 是 ， 它 不 会 翻译 彤 如 Sx.y 这 样 的 表达 式 

对 语义 判定 «py» 求 值 。 如 果 “py 在 运行 时 结果 为 假 值 ， 其 对 应 的 规则 将 会 变 得 “不 可 见 “( 不 可 
达 )。 表 达 式 “py 遵循 上 月 标语 言 的 语法 。 虽 然 语 义 判定 可 以 出 现在 间 法 规则 的 任意 位 置 ， 但 是 出 
于 效率 的 考虑 ， 最 好 将 它们 放 租 在 规则 末尾 。 需 归 注 意 的 另外 一 点 是 ， 诸 义 判定 必须 出 现在 词法 
动作 之 前 

此 配 任 意 不 属于 集合 x 的 单个 字符 。 集 合 x 可 以 是 单个 字符 常量 、 一 个 范围 ， 或 者 是 一 条 形 如 
(xyz) 或 者 ~[xyz] 的 子规 则 。 下 列 规 则 使 用 ~ 和 ~[en]* 匹配 除 指定 字符 外 的 任意 字符 : 
COMMENT : '#" ~[INFNNn]* "Ur'? "In" -> skip ， 


和 文法 规则 一 样 ， 词 法 规则 也 允许 括号 包围 的 子规 则 和 EBNF 符 号 的 存 
在 : ? 、*、+。 上 述 COMMENT 规 则 展示 了 * 和 ? 的 用 法 。+ 的 种 见 用 


法 是 使 用 [0-9]+ 来 匹配 整数 。 同 时 ， 在 词法 规则 中 ， 也 可 以 在 上 述 


EBNF 符 号 后 使 用 非 仿 梦 后 缀 ? 。 


3. 递 归 词 法 规则 


和 大 多 数 词法 语法 工具 不 同 的 是 ，ANTLR 词 法 规则 可 以 是 递归 的 。 这 
在 某 些 情况 下 市 来 了 极 大 的 便利 ， 例 如 当 你 希望 匹配 类 似 藤 套 动 作 的 


内 套 词法 符号 时 : {...{...}...} 


reference/Recur.g4 
Lexer grammar Recur; 


ACTION : '{' ( ACTION | ~[{}] )* '}'; 
WS : [ \r\t\n]+ -> Skip ; 
4. 了 几 余 字符 串 党 量 


- 量 . 


需要 注意 的 是 ， 不 要 在 多 条 词法 规则 的 右 侧 指定 相同 的 字符 串 常 量 。 
这 样 的 字符 串 常 量 存 在 歧义 ， 它 将 能 够 匹配 多 种 类 型 的 词法 从 号。 
ANTLR 会 使 这 些 字 符 串 利 量 对 语法 分 析 融 不 可 用 。 这 同样 适用 于 器 模 
式 的 规则 。 例 如 ， 下 列 词法 语法 定义 了 两 个 具有 相同 字符 序列 的 词法 


符号 。 


reference/L.g4 
Lexer grammar L; 


文法 语法 不 能 引用 字符 串 常 量 '&'， 但 是 可 以 引用 词法 符号 名 。 


reference/P.g4 

parser grammar P; 

options { tokenVocab=L; } 

a : '&' // 引发 一 个 错误 : 找 不 到 词法 符号 
AND // 不 会 引 友 错误 
MASK // 不 会 引发 错误 


下 面 是 构建 和 测试 步 又: 


今 $ antlr4 L.g4  # 产 生 P.g4 中 的 tokenVocab 选项 所 需 的 L.tokens 文件 

$antlr4 P.g4 

《 error(126): P.g4:3:4: cannot create implicit token for string literal '&' 
in non-combined grammar 


5. 词 法 规则 动作 


ANTLR 词 法 分 析 妖 在 匹配 到 一 条 词法 规则 后 会 生成 一 个 词法 符号 对 
象 。 每 个 对 词法 符号 的 请 求 都 从 Lexer.nextToken () 开始 ， 该 方法 对 每 
个 识别 到 的 词法 符号 调用 emit () 一 次 。emit () 从 词法 分 析 器 的 当前 
状态 收集 信息 ， 生 成 词法 符号 。 它 访问 字段 _type 、_text、_channel 、 
_tokenStartCharIndex、_tokenStartLine， 以 及 
_tokenStartCharPositionInLine。 你 可 以 通过 类 似 setType () 的 setter 方 法 
设置 这 些 状态 。 例 如 ， 若 enumIsKeyword 为 假 值 ， 下 列 规则 将 enum 转 
换 成 一 个 标识 符 : 


ENUM : 'enum' {if (!enumIsKeyword) setType(Identifier);} ; 


在 词法 规则 动作 中 ，ANTLR 不 会 对 特殊 的 $x 进 行 翻译 (这 一 点 和 
ANTLR 3 不 同 ) 。 一 条 词法 规则 无 论 包含 多 少 个 备 选 分 支 ， 它 最 多 只 


能 包含 一 段 动作 。 
6. 词 法 分 析 器 指令 


为 避免 语法 和 特定 目标 语言 的 籼 合 ，ANTLR 文 持 词 法 分 析 器 指令 。 和 
任意 的 内 藤 动 作 不 同 ， 这 些 指令 遵循 独立 的 语法 ， 并 且 数 量 有 限 。 词 
法 分 析 硕 指令 出 现在 词法 规则 定义 的 最 外 层 备 选 分 文 末尾 。 每 条 词法 
符号 规则 最 多 只 能 包含 一 条 指令 。 词 法 分 析 器 指令 由 -> 运算 符 及 其 后 


的 一 个 或 多 个 指令 名 组 成 ， 可 以 携带 参数 。 


TokenName : alternative’» -> command-name 


TokenName : “alternative’» -> command-name!(“identifier or integer’) 
一 个 备 选 分 文 可 以 以 逗号 分 隅 的 形式 携 市 多 个 指令 。 下 面 是 有 效 的 指 
令 名 : 


skip ”此 规则 不 会 将 对 应 的 词法 符号 返回 给 语法 分 析 紫 。 它 第 用 于 处 理 


全 站 学 付 : 


WS : [ \r\t\n]+ -> Skip ; 


more ”匹配 此 规则 ， 但 是 使 用 这 些 文本 继续 进行 词法 符号 匹配 。 下 一 
条 词法 符号 规则 匹配 的 文本 将 会 包含 当前 规则 匹配 的 文本 。 此 指令 通 


单 应 用 于 模式 中 。 下 面 是 使 用 模式 匹配 字符 串 闻 量 的 一 个 示例 : 


reference/Strings.g4 
Lexer grammar Strings,; 


LOUOTE # "™ 
: [ \r\t\n]+ -> Skip ; 


WS 


mode STR;， 


STIRING : "™ 


TEXT 


-> more, mode(STR) ; 


-> mode (DEFAULT_MODE) ; // 我 们 希望 语法 分 析 器 看 到 的 词法 符号 
-> more ; // 收集 更 多 的 文本 ， 以 生成 字符 串 


下 面 是 示例 运行 过 程 : 


过 $ antLr4 Strings.g4 
过 $ javac Strings.java 
> $ grun Strings tokens -tokens 


一 仿 hi" 


—> "mom" 


- 今 EOF 


《 [@0,0:3=' "hi"',<2>,1:0] 
[@1,5:9='"mom"',<2>,2:0] 
[@2,11:10='<EOF>' ,<-1>,3:0] 


type (T) 


为 当前 词法 符号 设置 类 型 。 下 列 示例 代码 强制 两 个 不 同 的 


词法 符号 使 用 相同 的 词法 符号 类 型 


reference/SetType.g4 
lexer grammar SetType, 


tokens { STRING } 


DOUBLE $ “™ 


SINGLE : 
WS 


,7 二 六 type (STRING) ’ 
"| .7 15 -> type(STRING) ; 


: [ \r\t\n]l+ -> Skip ; 


下 面 是 示例 运行 过 程 。 可 以 看 到 ， 两 个 词法 符号 的 类 型 均 为 1。 


> $ antLr4 SetType.g4 
过 $ javac SetType.java 


过 $ grun SetType tokens -tokens 

"double" 

过 'single' 

3 Eor 

《 [@0,0:7=' "double"',<1>,1:0] 
[@1,9:16=''single'',<]1>,2:0] 
[@2,18:17='<EOF>' ,<-1>,3:0] 


channel (C) ”为 当前 词法 符号 设置 通道 。 默认 值 为 
Token.DEFAULT_CHANNEL 。 你 可 以 自行 定义 一 些 常量 然后 使 用 之 ， 
或 者 使 用 Token.DEFAULT_CHANNEL 对 应 的 整数 值 0。 另外 一 个 名 为 
Token.HIDDEN_CHANNEL 的 通用 隐藏 通道 对 应 的 值 是 1 。 


@lexer: :members { public static final int WHITESPACE = 1; } 


WS : [ \t\n\r]+ -> channel (WHITESPACE) ; 


mode (M) ”在 匹配 当前 词法 符号 后 ， 将 词法 分 析 器 切换 到 M 模 式 。 
随后 ， 词 法 分 析 右 将 只 会 使 用 M 模 式 中 的 规则 匹配 词法 符号 。M 可 以 是 
一 个 定义 于 相同 语法 文件 的 模式 名 或 者 一 个 整数 第 量 。 参 见 稍 早 前 的 


Strings 语 法 。 


S 


pushMode (M) ” 它 和 mode 的 作用 大 臻 相同， 不 过 它 除了 设置 模式 M 
之 外 ， 还 会 将 当前 模式 推 入 一 个 栈 中 。 它 应 当 与 popMode 联 合 使 用 。 


popMode 从 模式 栈 中 弹出 一 个 模式 ， 并 将 栈 顶 模式 设置 为 当前 模式 。 
它 应 当 与 pushMode 联 合 使 用 。 


15.6 ”通配符 与 非 信 禁 子 规则 


诸如 (…) ? 、【...) * 和 (…) + 的 EBNF 子 规则 是 信 禁 的 (greedy) 

一 一 它们 会 消费 尽 可 能 多 的 输入 文本 ， 在 某 些 情况 下 ， 这 十 我 们 所 不 
希望 看 到 的 。 在 词法 分 析 器 和 部 分 语法 分 析 器 中 ， 类 似 .* 的 结构 会 持续 

匹配 到 输入 文本 的 末尾 。 寿 硕 望 这 样 的 循环 是 非 贫 梦 的 

(nongreedy) ， 则 需要 使 用 另外 一 种 从 正则 表达 式 中 借鉴 来 的 语 

法 : .*? 。 我 们 可 以 通过 添加 ? 后 级 的 方式 使 任意 以 ? 、* 或 + 结尾 的 子 

规则 变 成 非 贫 梦 的 。 非 信 梦 子规 则 在 词法 分 析 闫 和 语法 分 析 融 中 都 呈 

家 允许 的 ， 不 过 在 词法 分 析 瑚 中 的 应 用 更 为 广泛 。 


1. 非 贪 梦 词 法 子规 则 


下 面 是 一 条 非常 各 见 的 匹配 C 风 格 注释 的 词法 规则 ， 它 会 消费 所 有 的 字 
， 直 至 过 到 结尾 的 */' 为 上 : 


COMMENT : '/*' .*? '*/' -> skip ; // .*? 匹配 任意 字符 ， 直 至 遇 到 第 一 个 */ 为 止 


下 列 语法 匹配 允许 转 义 双 引 瑟 \" 存 在 的 字符 串 ; 


reference/Nongreedy.g4 
grammar Nongreedy; 
S : STRING+ ; 


STRING : | 局 | 服 | ( 本 | ja*? lu ; HA 匹配 “直面 i "NY 
WS : [ \r\t\n]+ -> Skip ; 


过 $ antLr4 Nongreedy.g4 

过 $ javac Nongreedy*.java 

过 $ grun Nongreedy s -tokens 

"quote:\"" 

=》 Eo 

《 [@0,0:9=' "quote:\""',<1>,1:0] 
[Gl L110="<EQF3™ <= 210] 


应 当 尽量 少 用 非 贫 梦 子 规则 ， 因 为 它们 增加 了 识别 的 复杂 度 ， 有 时 其 
至 会 使 语法 分 析 器 匹配 文本 的 过 程 变 得 束 手 。 词 法 分 析 絮 选择 词法 符 
写 规则 的 方法 如 下 : 


首要 目标 是 匹配 能 够 识别 最 多 输入 字符 的 词法 规则 。 


INT : [0-9]+ ， 
DOT 训 和 和 // 匹配 小 数 点 
FLOAT : [0-9]+ '.，; //“'34.' 匹配 此 规则 ， 而 非 INT DOT 


-如 果 多 于 一 条 词法 规则 匹配 相同 的 输入 序列 ， 那 么 在 语法 文件 中 位 置 
靠 前 的 规则 具有 更 高 的 优先 级 。 


DOC § '/**' ?Py 


; // 二 者 都 可 以 匹配 /** foo */， 胜 出 的 是 DOC 
CMT 3 


于 
下 


- 非 贪 梦 子 规则 匹配 能 够 满足 该 规则 的 最 少 的 字符 序列 。 


/** 匹配 双 尖 括号 中 除 \n 外 的 任意 字符 */ 


STRING : "<<' ~'\n'*? ">>”) // 输入 '<<foo>>>> ' 的 匹配 结果 是 STRING END 
END P| 


-在 词法 规则 中 非 信 梦 匹 配子 规则 之 后 的 所 有 决策 都 遵循 “首先 匹配 ” 原 
则 。 


例如 ，.*? (aab') 右 侧 的 备 选 分 文 'ab' 征 无 用 代码 ， 它 将 永远 不 会 被 
匹配 到 。 如 采 输 入 文本 是 ab， 那 么 第 一 个 备 选 分 文 a 融会 匹配 第 一 个 字 
符 并 结束 匹配 过 程 。 与 之 相 比 ， (alab') 本 号 能 够 使 用 第 二 个 备 选 分 
文正 确 匹配 输入 ab。 这 种 现象 是 非 贫 梦 匹 配 的 过 程 中 有 意 为 之 的 ， 目 
的 是 降低 复杂 度 。 


为 展示 词法 规则 中 循环 的 不 同 用 法 ， 请 看 下 列 语法 ， 它 包含 三 种 类 似 
动作 的 词法 符号 (使 用 不 同 分 隔 符 的 代码 共存 于 同一 份 语法 中 ) : 


reference/Actions.g4 
ACTION1 : '{' ( STRING | . )*? '}' ;  // 允许 {"foo} 


ACTION2 : '[' ( STRING | ~'"， )*? ']' ; // 不 允许 ["foo]; 非 贪 楚 匹配 *? 
ACTION3 : '<' ( STRING | ~[">] )* '>' ; // 不 允许 <"foo>; 贪 楚 匹 配 # 
STRING 3 1 届 ! ( 1 1 \ nl | )*? lm ; 


ACTION1 规 则 人 允许 不 完整 的 字符 串 出 现 ， 如 ffoo}， 这 是 由 于 输入 
{"foo} 匹 配 循环 中 的 通配符 部 分 ， 它 无 须 进 入 STRING 规 则 就 能 匹配 双 
。 为 解决 这 个 问题 ， 规 则 ACTION2 使 用 ~" 匹 配 除 双 引 号 之 外 的 任 


就 会 退出 循环 。 如果 和 硕 望 避免 非 俩 焚 匹 配 的 子规 则 ， 可 以 显 式 指定 一 
个 备 选 分 文 。~[">] 匹 配 除 双 引 号 和 右 尖 括号 之 外 的 任意 字符 。 下 面 是 


示例 运行 步骤 : 


> $ antLr4 Actions .g4 

= $ javac Actions#k .java 

= $ grun Actions tokens -tokens 

> {"foo} 

今 Eor 

《 [@0,0:5='{"foo}' <1>,1:0] 
[@1,7:6='<EOF>' ,<-1>,2:0] 

= $ grun Actions tokens -tokens 

= ["foo] 

=》 Eo 

《Line 1:0 token recognition error at: '["foo]\n' 
[@0,7:6='<EOF>' ,<-1>,2:0] 

过 $ grun Actions tokens -tokens 

= <"foo> 

= Eo 

《 line 1:0 token recognition error at: '<"foo>\n' 
[@0,7:6='<EOF>' ,<-1>,2:0] 


2. 非 贫 禁 文法 子规 则 


在 文法 规则 中 ， 寿 语法 分 析 瑚 的 目标 是 按照 粗略 的 语法 从 输入 文件 中 
提取 信息 ， 即 进行 “模糊 匹配 ”， 非 贫 林 的 子规 则 和 通配符 也 是 非常 有 
用 的 。 相 对 于 词法 分 析 瑚 中 的 非 贫 获 决 策 ， 语 法 分 析 画 总 是 能 够 作出 
全 局 性 的 正确 决策 。 换 句 话 说 ， 语 法 分 析 右 的 决策 不 会 使 得 合法 输入 
在 后 面 的 某 个 时 刻 失败 。 非 贫 郴 文法 子规 则 的 核心 思想 是 : 对 于 有 效 
的 输入 序列 ， 匹 配 使 语法 分 析 过 程 成 功 的 最 短 词法 符号 序列 。 


例如 ， 下 面 的 语法 展示 了 从 任意 Java 文 件 中 提取 整数 常量 的 方法 : 


reference/FuzzyJava.g4 

grammar FuzzyJava; 

/** 匹配 constant 规则 匹配 到 的 结果 之 间 的 任意 文本 */ 
file : .*? (constant .*?)+ ; 


/** 另 一 个 更 快 的 版 本 (ANTLR 工具 会 对 .* 子规 则 给 出 


* ”一 条 警告 ， 可 忽略 之 ) 
3 
altfile : (constant | .)* ; // 匹配 一 个 常量 或 者 任意 词法 符号 0 次 或 多 次 


/** 匹配 类 似 "public static final SIZE" 的 文本 */ 
constant 
: 'public' 'static' 'final' 'int' Identifier 
{System.out.println("constant: "+$Identifier.text);} 


Identifier : [a-zA-Z $] [a-zA-Z $0-9]* ; // 简化 的 标识 符 


上 述 语法 是 真实 Java 语 法 的 词法 规则 的 简单 子 集 ， 人 整个 文件 大 约 60 行 。 
识别 器 仍然 需要 处 理 字 符 串 和 字符 常量 ， 以 及 注释 ， 这 样 它 才 不 会 出 
错 一 一 如 匹配 到 字符 串 中 的 整数 第 量 。 其 中 有 一 条 与 众 不 同 的 词法 规 
则 完成 “匹配 其 他 词法 规则 未 能 匹配 的 任意 字符 ”工作 。 


reference/FuzzyJava.g4 
OTHER : . -> Skip ; 


这 条 词法 规则 和 语法 分 析 句 中 的 .*? 子规 则 都 是 成 功 完成 模糊 匹配 的 天 
键 因 素 。 


下 列 示例 文件 可 以 用 于 测试 这 个 模糊 匹配 的 语法 分 析 絮 : 


reference/C.java 

import java.util.*; 

public class C { 
public static final int A 
public static final int B 
public void foo() { } 
public static final int C = 1; 


1 
1 


} 


下 面 是 构建 和 测试 的 步骤 : 


$ antLr4 FuzzyJava.g4 

$ javac FuzzyJavak .java 

$ grun FuzzyJava file C.java 
constant: A 

constant: B 

constant: C 


名 上 略 了 除 public static final int 定 义 之 外 的 全 部 内 容 。 完 成 这 些 事 情 只 


它 
需 两 条 文法 规则 。 
15.7 语义 判定 


语义 判定 {...}? 是 使 用 目标 语言 编写 的 布尔 表达 式 ， 它 指示 了 沿 当前 判 
定 所 “守护 ”的 路 径 继 续 进 行 语 法 分 析 的 可 行 性 。 和 动作 一 样 ， 判 定 可 
以 出 现在 文法 规则 的 任意 位 置 ， 但 是 只 有 出 现在 备 选 分 文 左 侧 的 判定 
才 具 备 影响 分 文 预测 《选择 可 行 的 备 选 分 文 ) 的 能 力 。 我 们 已 经 在 第 
11 章 中 详细 讨论 了 判定 。 本 区 将 对 文法 规则 和 词法 规则 中 的 语义 判定 
进行 完整 的 总 结 。 下 面 让 我 们 一 起 深入 了 解 语法 分 析 需 在 语法 分 析 的 
决策 过 程 中 十 如 何 与 判定 协同 工作 的 。 


1. 进 行 市 判定 的 语法 分 析 决 策 


ANTLR 的 通用 决策 机 制定 在 所 有 的 可 行 备 选 分 文中 选择 ， 忽 略 那些 在 
当前 结 末 为 假 值 的 判定 所 守护 的 备 选 分 文 〈 可 行 的 备 选 分 文 指 的 是 匹 
配 当前 输入 的 备 选 分 文 ) 。 如 采 剩 余 的 备 选 分 文 多 于 一 个 ， 那 么 语法 
分 析 屁 就 选择 在 决策 中 位 置 靠 前 的 那个 。 


假设 有 一 种 C++ 语 言 的 变 体 ， 其 中 的 数组 引用 可 以 用 圆 括 号 代替 方 括 
号 。 如 末 我 们 仅仅 对 其 中 的 一 个 备 选 分 支 应 用 判定 ， 那 么 expr 规 则 仍 会 
面临 收 义 性 移 择 。 


expr: ID '(' expr')' // 数组 引用 (ANTLR 选择 此 条 规则 ) 
| ”{istype()}? ID '(' expr ')' // 构造 器 风格 的 类 型 转换 
| ID '(' expr ')' // 销 数 调用 


在 本 例 中 ， 三 个 分 支 都 可 以 匹配 输入 x (i) 。 当 x 不 是 类 型 时 ， 判 定 为 
假 值 ， 此 时 expr 中 可 行 的 备 选 分 文 只 剩 下 了 第 一 个 和 第 三 个 。ANTLR 
目 动 选 择 第 一 个 来 解决 歧义 问题 。 令 ANTLR 目 行 在 多 个 备 选 分 文中 作 
出 选择 的 原因 是 判定 的 数量 太 少 。 对 于 n 个 可 行 的 备 选 分 支 ， 最 好 使 用 
至 少 n-1 个 判定 。 换 句 话 说， 不 要 使 判定 数量 像 expr 一 样 过 少 。 


有 些 时 候 ， 语 法 分 析 紫 会 过 到 与 单个 选择 相关 联 的 多 个 判定 。 无 须 担 
心 ，ANTLR 能 够 在 运行 时 将 这 些 判定 用 合适 的 逻辑 运算 符 连 接 起 来 ， 
组 成 一 个 新 的 判定 。 


例如 ， 在 规则 stat 中 ， 决 策 过 程 如 下 : 将 expr 的 备 选 分 文 上 的 判定 用 || 连 
接 ， 生 成 的 结果 用 于 守护 stat 的 第 二 个 备 选 分 文 。 


stat: decl | expr ; 

decl: ID ID ; 

expr: {istype()}? ID '(' expr ')' // 构造 器 风格 的 转换 
| {isfunc()}? ID '(' expr ')' // 函数 调用 


只 有 在 istype () jlisfunc () 为 真 值 的 情况 下 ， 语 法 分 析 器 才 会 在 预测 
过 程 中 选择 stat 的 expr 备 选 分 文 。 这 是 十 分 必要 的 ， 因 为 语法 分 析 亏 应 
当 仅 在 ID 是 类 型 名 或 者 函数 名 的 时 候 才 匹配 一 个 表达 式 。 在 本 例 中 ， 
只 进行 一 次 判定 是 没有 意义 的 。 不 过 ， 请 注意 ， 当 语法 分 析 器 到 达 expr 
时 ， 它 会 对 两 个 备 选 分 支 中 的 判定 进行 独立 求 值 ， 以 作出 决策 。 


如 果 多 个 判定 形成 了 一 个 序列 ， 语 法 分 析 器 会 将 它们 用 && 运 算 符 连接 
起 来 。 例 如 ， 考 虑 如 下 情况 ， 在 stat 中 的 expr 前 增加 一 个 判定 。 


stat: decl | {java5}? expr ; 


此 时 ， 仅 当 java5&& (istype () jlisftunc () ) 值 为 真 时 ， 语 法 分 析 器 
才 会 在 预测 过 程 中 选择 stat 的 第 二 个 备 选 分 文 。 


至 于 判定 中 的 代码 ， 需 要 将 如 下 规则 谨 记 于 心 。 


(1) 使 用 有 意义 的 判定 


ANTLR 假 设 你 的 判定 用 于 解决 皮 义 问题 。 例 如 ， 如 下 判定 对 解决 两 个 
备 选 分 文 的 歧义 问题 襄 无 帮助 ，ANTLR 会 不 知 所 措 : 


expr: {isTuesday()}? ID '(' expr ')' // 构造 器 风格 的 转换 
| {isHotOutside}? ID '(' expr ')' // 函数 调用 


(2) 判定 不 可 有 副作用 


ANTLR 假 设 判定 可 以 无 序 执行 或 者 求 值 多 次 ， 所 以 不 要 使 用 类 似 {$i++ 
<10}? 的 判定 。 几 乎 可 以 断定 ， 这 样 的 判定 不 会 按照 预期 方式 工作 。 


即使 不 在 语法 分 析 紫 的 决策 过 程 中 ， 判 定 也 可 以 用 于 关闭 备 选 分 文 ， 

引起 相应 的 规则 失效 。 这 发 生 在 规则 仅 包 侣 一 个 备 选 分 文 时 。 虽 然 只 
有 一 个 选择 ， 但 是 作为 正常 的 语法 分 析 过 程 ，ANTLR 仍 会 对 判定 求 什 
一 一 这 和 动作 一 样 。 这 意味 着 下 面 的 规则 永远 不 会 得 到 匹配 : 


prog: {false}? 'return' INT ; // 抛 出 FaitedPredicateException 


ANTLR 将 语法 中 的 {false}? 转换 为 生成 的 语法 分 析 硕 中 的 一 个 条 件 表 
过 


if ( !false ) throw new FailedPredicateException(...); 


迄今 为 止 ， 我 们 看 到 的 所 有 判定 都 是 在 预测 过 程 中 可 见 和 可 用 的 ， 但 
征 也 有 例外 。 


在 预测 过 程 中 ， 语 法 分 析 天 不 会 对 动作 或 者 词法 符号 引用 之 后 的 判定 
求 值 。 让 我 们 首先 分 析 一 下 动作 和 判定 之 间 的 关系。 


ANTLR 对 动作 代码 块 中 的 内 容 一 无 所 知 ， 所 以 它 必须 假设 任意 判定 都 
可 能 依赖 动作 中 的 副作用 。 设 想 一 下 ， 某 段 动作 代码 计算 x 的 值 ， 而 田 
外 一 个 判定 使 用 了 x。 在 动作 创建 x 之 前 就 对 该 判定 求 值 会 违背 语法 中 
指定 的 顺序 。 


更 重要 的 征 ， 语 法 分 析 瑚 必须 先决 定 匹 配 哪 个 备 选 分 文 ， 然 后 才能 执 
行 相 应 的 动作 。 这 是 因为 动作 具有 副作用 ， 我 们 无 法 撤销 打印 输出 之 
类 的 语句 。 例 如 ， 在 下 列 规则 中 ， 语 法 分 析 器 不 能 在 选择 该 备 选 分 文 
之 前 ,执行 {java5}? 左 侧 的 动作 。 


@members {boolean allowgoto=false;} 
stat: {System.out.println("goto"); allowgoto=true;} {java5}? 'goto' ID ';' 
| ns 


如 琳 在 预测 过 程 中 不 能 执行 该 动作 ， 那 么 我 们 整 不 应 该 对 {java5}? 求 
值 ， 因 为 它 依 赖 于 该 动作 。 


预测 过 程 中 也 不 能 读 取 词法 符号 引用 。 读 取 词 法 符号 引用 具有 副 作 


用 ， 会 使 得 符号 流 癌 前 流动 一 个 符号 。 如 采 一 个 判定 读 取 了 当前 的 符 


号 ， 整 个 符号 流 束 会 失去 同步 。 例 如 ， 在 下 列 语法 中 ， 判 定期 户 


getCurrentToken () 返回 一 个 ID 词法 符号 ; 


stat: '{' decl '}' 
| '{ SS 七 S 二 '}! 


decl: {istype(getCurrentToken().getText())}? ID ID '»' 
expr: {isvar(getCurrentToken().getText())}? ID ; 


stat 中 的 决策 无 法 对 这 些 判 定 求 值 的 原因 在 于 ， 在 stat 的 起 始 位 置 ， 当 前 
的 词法 符号 是 一 个 左 化 括号 。 为 了 保持 语义 ，ANTLR 不 会 在 该 决策 过 
程 中 对 判定 求 值 。 


可 见 的 判定 (visible predicate) 是 指 那些 预测 过 程 中 、 在 动作 或 者 词法 

符号 之 前 的 判定 。 预 测 过 程 忽略 不 可 见 的 判定 ， 把 它们 当 作 不 存在 。 

在 某 些 罕见 情况 下 ， 语 法 分 析 器 不 能 使 用 判定 ， 即 使 它 对 于 特定 的 决 

策 过 程 是 可 见 的 。 关 于 它们 的 介绍 ， 详 见 下 一 节 。 

3. 使 用 上 下 文 相关 判定 

一 个 依赖 于 周围 规则 的 参数 或 者 局 部 变量 的 判定 称 为 上 下 文 相 天 判定 
(context-dependent predicate) 。 显 然 ， 我 们 只 能 在 它们 被 定义 的 规则 


中 对 它们 求 值 。 例 如 ， 在 下 列 的 prog 中 对 上 下 文 相 关 判 定 {$i<=5}? 求 
值 是 没有 意义 的 。 局 部 变量 $i 并 没有 在 prog 中 定义 。 


prog: vec5 
| 


vec5 
locals [int i=1] 
( {$i<=5}? INT {$i++;} )* // 匹配 5 个 INT 


ANTLR 名 略 那些 无 法 在 正确 的 上 下 文中 求 值 的 上 下 文 相 关 判 定 。 通 利 
情况 下 ， 正 确 的 上 下 文 殉 是 定义 该 判定 的 规则 ， 但 是 有 某 些 时 候 ， 语 法 
分 析 器 即使 在 同一 条 规则 中 也 无 法 对 上 下 文 相关 判定 求 值 ! 这 些 情况 
的 检测 是 在 运行 时 由 自 适 应 LL (*) 预测 完成 的 。 


例如 ，stat 规 则 中 、 可 选 的 else 分 文子 规则 使 得 stat 规 则 结束 ， 语 法 分 析 
二 返回 调用 它 的 prog 规 则 继续 寻找 符号 : 


prog: ”Sstat+ ; // 人 允许 多 条 连续 的 stat 
stat 
locals [int i=0] 
{$i==0}? 'if' expr 'then' stat {$i=5;} ('else' stat)? 
| 'break' ';' 


预测 过 程 试 图 在 if 语 句 后 寻找 除 else 子 句 之 外 的 内 容 。 由 于 同一 行 输入 

中 可 能 包含 多 个 stat，else 可 选 分 文 的 预测 流程 重新 返回 了 stat。 在 下 一 
个 stat 的 处 理 过 程 中 ， 它 生成 了 一 份 新 的 $i 拷贝 ， 其 值 为 0， 而 非 5。 此 

时 ，ANTLR 忽 略 上 下 文 相关 判定 {$i==0}， 因 为 它 知 道 语法 分 析 絮 已 经 
不 在 原 移 的 stat 调 用 中 了 “。 判 定 过 程 面 对 的 是 一 个 不 同 版 本 的 $i， 所 以 

语法 分 析 亏 不 能 对 它 求 值 。 


有 关 词 法 分 析 需 中 判定 的 细 世 与 之 大 致 相同 ， 除 了 一 些 例外 : 词法 规 
则 不 能 包含 参数 和 局 部 变量 。 我 们 将 在 下 一 节 详 细 讲 述 所 有 与 词法 分 
析 亏 相关 的 内 容 。 


4. 词 法 规则 中 的 判定 


在 文法 规则 中 ， 判 定 必 须 出 现在 备 选 分 文 的 左 侧 ， 以 辅助 对 备 选 分 文 
的 预测 过 程 。 然 而 ， 在 词法 分 析 器 中 ， 判 定 必须 出 现在 词法 规则 的 右 
侧 ， 因 为 词法 分 析 器 在 看 到 一 个 词法 符号 的 全 部 文本 后 才 会 选择 合适 
的 规则 。 原 则 上 ， 词 法 规则 中 的 判定 可 以 出 现在 规则 中 的 任何 位 置 。 
不 过 ， 某 些 位 置 会 比 其 他 位 置 更 有 效率 ，ANTLR 不 保证 最 优 位 置 。 即 
使 在 单词 法 符号 匹配 的 过 程 中 ， 规 则 中 的 一 个 判定 也 可 能 被 执行 多 

次 。 你 可 以 在 每 条 词法 规则 中 磐 入 多 个 判定 ， 它 们 会 在 词法 规则 匹配 
并 到 达 它 们 时 被 求 值 。 


简单 而 言 ， 词 法 分 析 夯 的 目标 是 
个 字符 前 ， 词 法 分 析 亏 都 会 检查 
只 有 一 条 规则 保持 可 用 状态 。 此 时 ， 词 法 分 析 器 就 根据 该 规则 的 词法 
符号 类 型 以 及 自己 匹配 到 的 文本 ， 创 建 一 个 词法 符号 对 象 。 


选择 匹配 最 多 输入 字符 的 规则 。 在 每 
当前 还 有 哪些 规则 可 用 。 最 终 ， 应 当 


有 些 时 候 ， 词 法 分 析 紫 面 对 的 可 用 规则 会 多 于 一 条 。 例 如 ， 输 入 enum 
能 够 匹配 ENUM 规 则 和 ID 规 则 。 如 采 enum 的 下 一 个 字符 是 空格 ， 那 么 
二 者 都 可 以 成 立 。 词 法 分 析 器 解决 这 样 的 歧义 性 的 方法 是 选择 位 置 靠 


前 的 那 条 可 行规 则 。 这 就 是 我 们 必须 将 匹配 关键 字 的 规则 放置 在 匹配 
标识 符 的 规则 之 前 的 原因 : 


ENUM :; ‘enum' ; 
ID : [a-z]+ ; 


不 过 ， 如 果 enum 的 下 一 个 字符 是 一 个 字母 ， 那 么 就 只 有 I 了 DD 是 可 用 的 
了 O 


判定 的 工作 原理 是 修改 可 行 词法 规则 的 集合 。 当 词法 分 析 右 直到 一 个 
值 为 假 的 判定 时 ， 和 语法 分 析 右 一 样 ， 它 会 关闭 该 判定 对 应 的 规则 。 


和 语法 判定 一 样 ， 词 法 判定 也 不 能 依赖 于 词法 动作 中 的 副作用 。 这 是 
因为 ， 动 作 是 在 词法 分 析 峰 成 功 选 定 规则 之 后 执行 鸭 ， 而 判定 是 规则 
选择 过 程 的 一 部 分 ， 它 们 不 能 依赖 于 动作 的 副作用 。 在 词法 规则 中 ， 
动作 必须 出 现在 判定 之 后 。 例 如 ， 下 面 是 另外 一 种 在 词法 分 析 右 中 匹 
配 enum 天 键 字 的 方法 : 


reference/Enum3.g4 


ENUM: [a-z]+ {getText().equals("enum")}? 
{System.out.println("enum!");} 
TD A [a-z]+ {System.out.println("ID "+getText());} ; 


ENUM 中 的 打印 动作 出 现在 末尾 ， 只 有 当前 输入 匹配 [a-z]+ 和 判定 为 真 
时 ， 它 才 会 被 执行 。 让 我 们 构建 并 测试 Enum3， 看 看 它 是 如 何 区 分 


enum 和 标识 符 的 。 


这 $ antlr4 Enum3.9g4 
这 $ javac Enum3.java 
> $ grun Enum3 tokens 
这 enum abc 
=》 Eo 
《 enum! 

ID abc 


它 能 够 正常 工作 ， 不 过 这 仪 仅 古 出 于 教学 目的 。 更 加 人 简单 明了 且 更 有 
效率 的 规则 如 下 : 


ENUM : 'enum' ; 


15.8 选项 


有 许多 语法 元 素 和 规则 元 素 级 别 的 选项 可 被 设 定 (当前 ， 暂 时 还 没有 
规则 选项 ) 。 它 们 能 够 改变 ANTLR 根 据 语法 生成 代码 的 方式 。 通 用 形 
wl 


options { namel=valuel; ... nameN=valueN; } // 与 目标 语言 的 语法 无 关 


其 中 的 value 可 以 是 标识 符 、 全 限定 标识 符 (如 a.b.c) 、 字 符 串 、 花 括 
号 包围 的 多 行 字符 串 ， 以 及 整数 。 


1. 语 法 选项 


所 有 的 语法 都 可 以 使 用 下 列 选项 。 在 混合 语法 中 ， 除 language 之 外 的 所 
有 选项 都 只 和 生成 的 语法 分 析 髓 相关 。 选 项 的 设 定 方式 是 通过 在 语法 


文件 中 使 用 之 前 介绍 的 options， 或 者 用 ANTLR 命 令 行 的 -D 参 数 传 入 
( 详 见 15.9 节 ) 。 下 面 的 例子 展示 了 这 两 种 方法 的 使 用 ， 需 要 注意 的 


是 ，-D 参 数 会 履 善 语法 中 的 options: 


superClass” 设 定 生成 的 语法 分 析 器 或 词法 分 析 器 的 父 类 。 对 于 混合 语 
法 ， 它 设 定语 法 分 析 器 的 父 类 。 


$ cat Hi.g4 

grammar Hi; 

a ® “hi 

$ antlr4 -DsuperClass=XX Hi.g4 

$ grep 'public class' HiParser.java 
public class HiParser extends XX { 

$ grep 'public class' HiLexer.java 
public class HiLexer extends Lexer { 


language ”如果 可 行 的 话 ， 生 成 指定 语言 的 代码 。 否 则 ， 你 会 看 到 下 列 


首 误 消 且 : 


$ antlr4 -Dlanguage=C MyGrammar.g4 
error(31): ANTLR cannot generate C code as of version 4.0 


tokenVocab ”在 遇 到 文件 中 的 词法 符号 时 ，ANTLR 将 词法 符号 的 类 型 
值 赋予 它们 。 如 果 需 要 使 用 不 同 的 词法 符号 值 ， 例 如 独立 的 词法 分 析 
器 ， 可 以 使 用 此 选项 令 ANTLR 使 用 指定 的 “.tokens” 文 件 。 ANTLR 会 为 
每 个 语法 生成 一 个 “.tokens” 文 件 。 


$ cat SomeLexer.g4 

Lexer grammar SomeLexer.,; 

ID : [a-z]+ ; 

$ cat R.g4 

parser grammar R; 

options {tokenVocab=SomeLexer;} 
tokens {A,B,C} // 通常 ， 它 们 的 类 型 值 分 别 为 1,2,3 
a: ID ; 

$ antLr4 SomeLexer .g4 

$ cat SomeLexer.tokens 

ID=1 

$ antLr4 R.g4 

$ cat R.tokens 

A=2 


TokenLabelType 在 生成 词法 符号 对 象 时 ，ANTLR 通 常 使 用 Token 类 
型 。 如 果 希 望 传 给 上 自 定义 的 语法 分 析 器 和 词法 分 析 器 一 个 能 够 生成 自 
定义 词法 符号 的 TokenFactory， 你 应 当 将 这 个 选项 的 值 设 为 该 类 型 。 这 
样 可 以 保证 上 下 文 对 象 清楚 地 知道 字段 和 方法 的 返回 值 类 型 。 


$ cat T2.g4 

grammar T2; 

options {TokenLabelType=MyToken;} 
a : x=ID ; 

$ antLr4 T2.g4 


$ grep MyToken T2Parser.java 
public MyToken x; 


2. 规 则 选项 


当前 ， 还 没有 有 效 的 规则 级 别 的 选项 ， 不 过 ANTLR 仍 然 文 持 下 列 语 
法 ， 以 备 未 来 扩展 : 


ruLename 
options {...} 


3. 规 则 元 素 选 项 


词法 符号 选项 的 形式 是 T<name=value>， 我 们 在 5.4 广 中 已 经 接触 过 了 。 
唯一 可 用 的 词法 符号 选项 是 assoc， 它 的 可 行 值 是 left 和 right。 下 面 是 一 
份 示 例 语法 ， 其 中 的 左 递归 表达 式 规则 指定 了 从 需 运 算 符 的 词法 符号 选 
项 。 

reference/ExprLR.g4 

grammar ExprLR; 

expr : expr '^'<assoc=right> expr 
expr '*' expr // 匹配 乘 号 连接 的 子 表达 式 


expr '+' expr // 匹配 加 号 连接 的 子 表达 式 
INT // 匹配 简单 的 整数 因子 


eis 


人 

语义 判定 也 能 接收 选项 ， 每 个 < 捕获 失败 的 语义 判定 "能 接收 一 个 先 
项 。 唯 一 可 用 的 选项 是 fail 选 项 ， 它 的 值 可 以 是 双 引 号 包围 的 字符 串 常 
量 ， 也 可 以 是 求 值 结果 为 字符 串 的 动作 。 该 字符 串 ， 或 者 说 动作 的 结 
果 字符 串 应 当 是 相应 判定 失败 后 输出 的 消息 。 


errors/VecMsg.g4 
ints[int max] 
locals [int i=1] 
INT ( ',' {$i++;} {$i<=$max}?<fail={"exceeded max "+$max}> INT )* 


当 判 定 失败 时 ， 动 作 可 以 在 执行 一 个 函数 的 同时 返回 字符 串 ， 如 : 
{...}? <fail={doSomething-AndReturnAString () }>。 


15.9 ANTLR 命 令 行 参数 


如 果 调 用 ANTLR 工 具 时 没有 传递 命令 行 参 数 ， 你 会 看 到 一 些 帮 助 信 
自 。 


/JU 


$ antLr4 

ANTLR Parser Generator Version 4.0 
-0 指定 所 有 的 生成 文件 的 输出 位 置 
-Lib 指定 语法 和 tokens 文件 的 位 置 
-atn 生成 规则 增强 转移 网 络 图 
-encoding 指定 语法 文件 的 编码 ， 例 如 euc- jp 
-message-format _ 指定 消息 的 输出 风格 : antlr/gun/vs2005 
-listener 生成 语法 分 析 树 监听 器 (默认 行为 ) 
-no-Listener 不 生成 语法 分 析 树 监听 器 
=Visitor 生成 语法 分 析 树 访问 器 
-no-visitor 不 生成 语法 分 析 树 访问 器 (默认 行为 ) 
-package 指定 生成 代码 的 包 / 命名 空间 
-depend 生成 文件 依赖 
-D<option>=value 设 定 / 覆盖 一 个 语法 级 的 选项 
-Werror 将 警告 当 作 错 误 处 理 
-XdbgST 对 生成 的 代码 启动 StringTempLate 可 视 化 器 
-Xforce-atn 对 所 有 的 预测 启用 ATN 模拟 器 
-Xlog 将 详细 日 志保 存 为 antlr-timestamp.1log 


-O outdir 


默认 情况 下 ，ANTLR 在 当前 目录 下 生成 输出 文件 。 此 参数 指定 ANTLR 
生成 的 语法 分 析 右 、 监 昕 器 、 访 问 右 和 .tokens 文 件 的 输出 目录 。 


$ antlr4 -o /tmp T.g4 
$ LSs /tmp/T* 


/tmp/T.tokens /tmp/TListener.java 
/tmp/TBaseListener.java /tmp/TParser.java 


-lib libdir 


默认 情况 下 ，ANTLR 会 在 当前 目 邓 下 寻找 .tokens 文 件 和 人 被 导入 的 语 
法 。 此 参数 指定 寻找 的 目录 。 


$ cat /tmp/B.g4 

parser grammar B; 

X ID:s 

$ cat A.g4 

grammar A; 

import B; 

Ss XxX 

ID : [a-z]+ ; 

$ antLr4 -Lib /tmp A.g4 


-atn 


此 参数 生成 表示 内 部 增强 转移 网 络 (Augmented Transition Network， 
ATN) 的 DOT 图 文件 。 这 样 的 文件 的 文件 名 通常 是 Grammar.rule.dot 。 
如 条 语法 是 一 个 混合 语法 ， 那 么 词法 规则 吏 会 被 命名 为 


GrammarLexer.rule.dot ° 


$ cat A.g4 
grammar A; 


S:b ; 

四 TD 3 

ID : [a-z]+ ; 

$ antlr4 -atn A.g4 

和 ls *,.dot 

A.b.dot A.s.dot ALexer.ID.dot 


-encoding encodingname 


默认 情况 下 ，ANTLR 使 用 UTF-8 编 码 加 载 语法 文件 ， 它 是 一 种 常见 编 
码 ， 能 够 将 ASCII 编 码 成 单字 记 。 不 过 ， 世 界 上 存在 许多 种 编码 。 如 果 
语法 文件 没有 使 用 你 的 本 地 编码 ， 那 么 你 就 需要 使 用 此 参数 ， 使 得 
ANTLR 能 够 正确 地 读 取 语法 文件 (如 下 列 文件 。 它 不 影响 生成 的 语 
法 分 析 器 的 编码 ， 只 涉及 语法 文件 的 编码 。 


# 我 的 Mac 0S X 上 的 locale 是 en_US 

# 我 将 此 文件 保存 为 UTF -8 编码 以 处 理 语法 名 : 外 (\uCDE2) 
$ cat 外 .g4 

grammar 处 ; 

a : 'foreign' ; 

$ antlr4 -encoding UTF-8 外 .g4 

$ ls 外 *.java 

外 BaseListener.java 外 Listener.java 

外 Lexer.java 外 Parser.java 

$ javac -encoding UTF-8 外 *.java 


-message-format format 


ANTLR 使 用 toolJresources/org/antlrv4/tooltemplates/messages/formats 目 
杂 下 的 模板 生成 黎 告 和 错误 消 尽 。 默 认 情 况 下 ，ANTLR 使 用 antlr.stg 

(StringTemplate group) 文件 。 你 可 以 将 其 修改 为 gnu 或 者 vs2005， 从 
而 使 ANTLR 生 成 的 消息 适用 于 Emacs 或 者 Visual Studio。 若 需 自 定义 名 
为 X 的 格式 ， 请 创建 一 个 资源 
org/antlr/v4/tool/templates/messages/formats/X， 并 将 其 置 于 CLASSPATH 
中 。 


-listener 


此 参数 通知 ANTLR 生 成 语法 分 析 树 监听 右 ， 且 是 默认 值 。 


Sd 


-no-listener 


此 参数 通知 ANTLR 不 生成 语法 分 析 树 监听 絮 。 


SN 


-ViSsitor 


默认 情况 下 ，ANTLR 不 生成 语法 分 析 树 访问 器 。 该 参数 局 用 此 功能 。 
ANTLR 人 能够 生成 语法 分 析 树 监听 絮 和 访问 器 ， 此 参数 和 -listener 参 数 互 
斥 o 


-NO-visitor 


通知 ANTLR 不 生成 语法 分 析 树 访问 右 ， 且 是 默认 值 。 


-package 


使 用 此 参数 为 ANTLR 生 成 的 文件 指定 包 或 者 命名 空间 。 此 外 ， 你 也 可 
以 通过 @header{..} 动 作 ， 不 过 它 会 将 语法 和 符 定 目标 语言 相 绑 定 。 如 
me 
则 ， 生 成 的 代码 束 会 包含 两 条 包 声 明 。 


-depend 
不 生成 语法 分 析 絮 和 监听 右 ， 而 十 生成 一 份 文件 依赖 列表 ， 每 行 一 


条 。 输 出 显示 被 依赖 和 即将 生成 的 语法 。 对 于 需要 了 解 ANTLR 语 法 依 
赖 的 构建 工具 ， 这 是 非常 有 用 的 。 例 如 : 


$ antlr4 -depend T.g 
T.g: A.tokens 
TParser.java : T.g 
T.tokens : T.g 
TLexer.java : T.g 
TListener.java : T.g 
TBaseListener.java : T.g 


如 有 果 将 -lib libdir、-depend 和 语法 选项 tokenVocab=A 一 起 使 用 ， 那 么 上 
述 依赖 就 会 包括 : T.g: libdir/A.tokens。 此 选项 的 输出 目录 会 被 -o outdir 


参数 影响 : outdir/TParser.java: T.g 


-D<option>=value 


使 用 此 参数 覆盖 或 者 设 定 一 个 语法 文件 的 语法 级 选项 。 如 果 和 需要 在 不 
修改 语法 的 情况 下 生成 不 同 语言 的 语法 分 析 器 ， 这 个 参数 是 很 有 用 的 
(我 期 望 在 不 远 的 将 来 ， 我 们 能 够 支持 更 多 的 目标 语言 ) 


$ antlr4 -Dlanguage=Java T.g4 # default 
$ antlr4 -Dlanguage=C T.g4 
error(31): ANTLR cannot generate C code as of version 4.0 


-Werror 
在 大 型 项 目的 构建 中 ，ANTLR 的 警告 消息 很 可 能 会 被 忽略 。 设 定 此 人 参 
数 可 以 令 警 告 被 当 作 错误 ， 从 而 使 得 ANTLR 工 具 能 够 在 命令 行 上 报告 


导电 
日 二 


下 面 的 一 些 参 数 主要 用 于 调试 ANTLR 本 号。 
-XdbgST 


在 需要 生成 代码 的 情况 下 ， 此 参数 打开 一 个 窗口 ， 显 示 生 成 的 代码 以 
及 用 于 生成 代码 的 模板 。 它 调用 StringTemplate 的 检视 器 窗口 。 


-Xforce-atn 


在 允许 的 情况 下 (前瞻 一 个 词法 符号 束 能 够 作出 决策 ， 从 多 个 备 选 分 
文中 选 出 一 个 ) ，ANTLR 通 贡 的 决策 方式 是 传统 的 “ 按 词 法 符号 类 型 选 


择 ”。 如果 需要 在 这 样 的 简单 决策 场景 下 强制 使 用 目 适 应 LL (*) 机 
制 ， 请 使 用 此 参数 。 


-Xlog 


此 参数 生成 一 个 日 志文 件 ， 其 中 包含 了 大 量 ANTLR 在 处 理 语法 的 过 程 
中 生成 的 消息 。 欲 了 解 ANTLR 坪 如 何 转换 左 递归 规则 的 ， 请 使 用 这 个 
参数 并 阅读 生成 的 日 志文 件 。 


$ antLr4 -XLog T.g4 
wrote ./antlr-2012-09-06-17.56.19.1log 


本 书 由 “ePUBw.COM” 整 理 ，ePUBw.COM 提供 
最 新 最 全 的 优质 电子 书 下 载 ! ! ! 
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